Shimmy - Ollama'nın Yerini Alabilecek, Kişisel Gizlilik Odaklı Hafif Bir OpenAI API Sunucusu

xguru · 2025-10-30T09:31:02+09:00

Yerel ortamda LLM'leri tamamen çevrimdışı çalıştırmak için tasarlanmış bir araç; Ollama'dan 142 kat daha küçük, 4.8 MB'lık tek bir binary olarak sunuluyor OpenAI API ile %100 uyumlu olduğu için mevcut Python, Node.js, VSCode Copilot, Cursor, Continue.dev gibi geliştirme araçları doğrudan bağlanabiliyor Kurulumun hemen ardından çalışan sıfır yapılandırma (Zero-Config) yapısı Hugging Face, Ollama, yerel dizinler vb. kaynaklardan otomatik model keşfi Otomatik port atama ve LoRA adaptör algılama desteği MOE(Mixture of Experts) tabanlı CPU/GPU hibrit çıkarım özelliğiyle 70B ve üzeri büyük modeller sıradan PC'lerde çalıştırılabiliyor CPU offloading ve akıllı katman dağıtımı sayesinde VRAM'in yetersiz olduğu ortamlarda da kararlı çalışma --cpu-moe, --n-cpu-moe seçenekleriyle ayrıntılı kontrol mümkün GPU hızlandırma için CUDA, Vulkan, OpenCL, MLX(Apple Silicon) gibi çeşitli backend'leri destekliyor Çalışma anında otomatik algılıyor; GPU yoksa otomatik olarak CPU'ya geçiyor Rust + Tokio tabanlı asenkron mimari ile yüksek performans ve bellek kararlılığı sağlıyor llama.cpp backend'i kullanıldığı için GGUF modelleriyle uyumlu LRU cache, otomatik load balancing, Prometheus entegre izleme gibi özellikler de içeriyor Güvenlik ve gizlilik odaklı tasarım Veri ve kod yerel ortamın dışına çıkmıyor API anahtarı, abonelik planı veya token bazlı ücretlendirme gerekmiyor MIT lisansıyla kalıcı olarak ücretsiz sunuluyor: “FREE now, FREE forever”

(github.com/Michael-A-Kuykendall)

57 puan yazan xguru 2025-10-30 | 5 yorum | WhatsApp'ta paylaş

Yerel ortamda LLM'leri tamamen çevrimdışı çalıştırmak için tasarlanmış bir araç; Ollama'dan 142 kat daha küçük, 4.8 MB'lık tek bir binary olarak sunuluyor
OpenAI API ile %100 uyumlu olduğu için mevcut Python, Node.js, VSCode Copilot, Cursor, Continue.dev gibi geliştirme araçları doğrudan bağlanabiliyor
Kurulumun hemen ardından çalışan sıfır yapılandırma (Zero-Config) yapısı
- Hugging Face, Ollama, yerel dizinler vb. kaynaklardan otomatik model keşfi
- Otomatik port atama ve LoRA adaptör algılama desteği
MOE(Mixture of Experts) tabanlı CPU/GPU hibrit çıkarım özelliğiyle 70B ve üzeri büyük modeller sıradan PC'lerde çalıştırılabiliyor
- CPU offloading ve akıllı katman dağıtımı sayesinde VRAM'in yetersiz olduğu ortamlarda da kararlı çalışma
- --cpu-moe, --n-cpu-moe seçenekleriyle ayrıntılı kontrol mümkün
GPU hızlandırma için CUDA, Vulkan, OpenCL, MLX(Apple Silicon) gibi çeşitli backend'leri destekliyor
- Çalışma anında otomatik algılıyor; GPU yoksa otomatik olarak CPU'ya geçiyor
Reklam
Rust + Tokio tabanlı asenkron mimari ile yüksek performans ve bellek kararlılığı sağlıyor
- llama.cpp backend'i kullanıldığı için GGUF modelleriyle uyumlu
- LRU cache, otomatik load balancing, Prometheus entegre izleme gibi özellikler de içeriyor
Güvenlik ve gizlilik odaklı tasarım
- Veri ve kod yerel ortamın dışına çıkmıyor
- API anahtarı, abonelik planı veya token bazlı ücretlendirme gerekmiyor
MIT lisansıyla kalıcı olarak ücretsiz sunuluyor: “FREE now, FREE forever”

5 yorum

nextstep 2025-11-01

Korece, İngilizce, Çince ve Japoncayı da test ettim ama şimdilik Japonca işlemede bir sorun var gibi görünüyor.

woung717 2025-11-01

Nasıl olsa backend llama.cpp ise buna dependency-free denebilir mi ki...

tsboard 2025-10-30

Vay canına, gerçekten inanılmaz, tüyler ürpertici. Hemen denemem lazım.

kimjoin2 2025-10-30

vay be

mssmss 2025-10-30

Katkıda bulunanlar arasında Claude ve Copilot da birlikte görünüyor.

Shimmy - Ollama'nın Yerini Alabilecek, Kişisel Gizlilik Odaklı Hafif Bir OpenAI API Sunucusu

İlgili okumalar

5 yorum