Shimmy - Ollama'nın Yerini Alabilecek, Kişisel Gizlilik Odaklı Hafif Bir OpenAI API Sunucusu
(github.com/Michael-A-Kuykendall)- Yerel ortamda LLM'leri tamamen çevrimdışı çalıştırmak için tasarlanmış bir araç; Ollama'dan 142 kat daha küçük, 4.8 MB'lık tek bir binary olarak sunuluyor
- OpenAI API ile %100 uyumlu olduğu için mevcut Python, Node.js, VSCode Copilot, Cursor, Continue.dev gibi geliştirme araçları doğrudan bağlanabiliyor
- Kurulumun hemen ardından çalışan sıfır yapılandırma (Zero-Config) yapısı
- Hugging Face, Ollama, yerel dizinler vb. kaynaklardan otomatik model keşfi
- Otomatik port atama ve LoRA adaptör algılama desteği
- MOE(Mixture of Experts) tabanlı CPU/GPU hibrit çıkarım özelliğiyle 70B ve üzeri büyük modeller sıradan PC'lerde çalıştırılabiliyor
- CPU offloading ve akıllı katman dağıtımı sayesinde VRAM'in yetersiz olduğu ortamlarda da kararlı çalışma
--cpu-moe,--n-cpu-moeseçenekleriyle ayrıntılı kontrol mümkün
- GPU hızlandırma için CUDA, Vulkan, OpenCL, MLX(Apple Silicon) gibi çeşitli backend'leri destekliyor
- Çalışma anında otomatik algılıyor; GPU yoksa otomatik olarak CPU'ya geçiyor
- Rust + Tokio tabanlı asenkron mimari ile yüksek performans ve bellek kararlılığı sağlıyor
- llama.cpp backend'i kullanıldığı için GGUF modelleriyle uyumlu
- LRU cache, otomatik load balancing, Prometheus entegre izleme gibi özellikler de içeriyor
- Güvenlik ve gizlilik odaklı tasarım
- Veri ve kod yerel ortamın dışına çıkmıyor
- API anahtarı, abonelik planı veya token bazlı ücretlendirme gerekmiyor
- MIT lisansıyla kalıcı olarak ücretsiz sunuluyor: “FREE now, FREE forever”
5 yorum
Korece, İngilizce, Çince ve Japoncayı da test ettim ama şimdilik Japonca işlemede bir sorun var gibi görünüyor.
Nasıl olsa backend
llama.cppise buna dependency-free denebilir mi ki...Vay canına, gerçekten inanılmaz, tüyler ürpertici. Hemen denemem lazım.
vay be
Katkıda bulunanlar arasında Claude ve Copilot da birlikte görünüyor.