Yerel LLM ekosisteminin Ollama'ya ihtiyacı yok
(sleepingrobots.com)- Ollama, yerel LLM çalıştırmayı basitleştiren erken dönem bir araçtı; ancak sonrasında kaynağı gizleme ve bulut odaklı dönüşüm nedeniyle güven kaybetti
- Çekirdek motor olan llama.cpp'nin katkısını küçümsedi ve kendi ggml arka ucuna geçerken performans düşüşü ile hataların yeniden ortaya çıkmasına yol açtı
- Model adlandırmasında yanıltıcılık, kapalı kaynak GUI uygulaması dağıtımı, verimsiz Modelfile yapısı gibi nedenlerle topluluk eleştirileri sürdü
- Model kayıt sistemi darboğazı, güvenlik açıkları, vendor lock-in yapısı yerel öncelikli felsefeyle çelişiyor
- llama.cpp, LM Studio, Jan gibi açık kaynak alternatifler halihazırda daha yüksek performans ve şeffaflık sunuyor ve yerel LLM ekosisteminin merkezine yerleşmiş durumda
Ollama'nın sorunları ve yerel LLM ekosistemindeki alternatifler
-
Ollama'nın kökeni ve ilk rolü
- Ollama, yerel LLM çalıştırmayı sadeleştiren ilk llama.cpp wrapper olarak dikkat çekti
- Kullanıcılar C++'ı doğrudan derlemeden veya sunucu ayarı yapmadan modeli çalıştırabiliyordu
- Sonrasında kaynağı gizledi, kullanıcıları yanılttı ve yerel öncelikli felsefeden uzaklaşarak girişim sermayesi destekli, bulut merkezli bir yapıya yöneldi
- Kurucular Jeffrey Morgan ve Michael Chiang; daha önce Docker GUI'si Kitematic'i geliştirip Docker Inc.'e sattılar
- Y Combinator(W21) çıkışlı proje, 2023'te herkese açıldı ve kendini “LLM'ler için Docker” olarak konumladı
- Ollama, yerel LLM çalıştırmayı sadeleştiren ilk llama.cpp wrapper olarak dikkat çekti
-
llama.cpp'ye yetersiz atıf
- Ollama'nın çıkarım yetenekleri tamamen Georgi Gerganov'un llama.cpp projesine dayanıyor
- 1 yıldan uzun süre boyunca README'de, web sitesinde ve pazarlama materyallerinde llama.cpp'den hiç söz edilmedi; MIT lisans bildirimi bile eksikti
- Topluluğun lisansa uyum talebi içeren issue'su (#3185) 400 günden fazla yanıtsız kaldı
- Daha sonra kurucu ortak, README'nin alt kısmına yalnızca “llama.cpp project founded by Georgi Gerganov” ifadesini ekledi
- Ollama tarafı, “çok sayıda yama yapıyoruz ve zamanla kendi motorumuza geçeceğiz” diyerek atıfı bilinçli biçimde küçülttü
Kendi arka ucuna geçiş ve performans kaybı
-
ggml tabanlı özel arka uç
- 2025 ortasında Ollama, llama.cpp yerine ggml tabanlı kendi implementasyonuna geçti
- Bunu kararlılık gerekçesiyle sundu, ancak sonuçta önceden çözülmüş hataları yeniden getirdi
- Yapılandırılmış çıktı hataları, görsel model başarısızlıkları, GGML assertion çakışmaları gibi çok sayıda sorun ortaya çıktı
- GPT-OSS 20B gibi yeni modeller ya hiç çalışmadı ya da tensor türü desteği eksik kaldı
- Gerganov, Ollama'nın ggml'i hatalı biçimde fork ettiğini doğrudan belirtti
-
Performans karşılaştırmaları
- Topluluk benchmark'larında llama.cpp, Ollama'dan 1,8 kat daha hızlı çıktı (161 vs 89 tokens/s)
- CPU tarafında da %30~50 performans farkı görüldü
- Qwen-3 Coder 32B testinde llama.cpp %70 daha yüksek throughput sağladı
- Bunun nedenleri arasında Ollama'nın daemon yapısı, verimsiz GPU offloading'i ve eski arka ucu gösteriliyor
Model adlandırmasında yanıltıcılık
-
DeepSeek-R1 vakası
- Ollama, DeepSeek-R1-Distill-Qwen-32B gibi küçültülmüş modelleri doğrudan “DeepSeek-R1” diye etiketledi
- Oysa bunlar gerçek 671B parametreli model değildi
- Bu yüzden kullanıcılar “DeepSeek-R1'i yerelde çalıştırdım” sanarak DeepSeek'in itibarına zarar verebilecek bir yanlış algıya sürüklendi
- İlgili GitHub issue'ları (#8557, #8698) yinelenen kayıt sayılarak kapatıldı ve çözümsüz kaldı
- Hâlâ
ollama run deepseek-r1komutu küçültülmüş modeli çalıştırıyor
Kapalı uygulama yayını
-
GUI uygulamasının kaynak kodu kapalı dağıtımı
- 2025 Temmuz'unda macOS ve Windows için Ollama GUI uygulaması yayımlandı
- Özel bir depoda geliştirildi, lisans olmadan dağıtıldı ve kaynak kodu paylaşılmadı
- Açık kaynak imajını koruyan bir proje için bu, ani bir kapalılık yönelimi anlamına geliyordu
- Topluluk, AGPL-3.0 bağımlılık ihtimali ve lisans ihlali endişeleri dile getirdi
- Web sitesi, GitHub bağlantısının yanına indirme düğmesi koyarak açık kaynakmış izlenimi verdi
- Aylarca sessiz kalındıktan sonra ancak 2025 Kasım'ında ana depoya birleştirildi
- XDA, “Açık kaynak olduğunu iddia eden projeler, neyin açık olup olmadığını net biçimde belirtmeli” diyerek eleştirdi
Modelfile verimsizliği
-
GGUF formatıyla tekrar
- GGUF formatı, modelin çalışması için gereken tüm bilgiyi tek bir dosyada taşır
- Ollama ise buna ek olarak, Dockerfile'a benzeyen yapıda ayrı bir Modelfile tanımlıyor
- Bu, zaten GGUF içinde bulunan bilgileri tekrar ederek gereksiz karmaşıklık yaratıyor
- Ollama yalnızca hardcoded şablon listesini otomatik tanıyor; yeni şablonlar yok sayılıyor
- Sonuç olarak modelin instruction formatı bozuluyor ve kullanıcıların elle dönüştürme yapması gerekiyor
-
Verimsiz parametre değiştirme
- Parametre değiştirmek için
ollama show --modelfileile dışa aktarıp düzenlemek, ardındanollama createile yeniden üretmek gerekiyor - Bu süreçte 30~60GB'lık modelin tamamı kopyalanıyor
- Topluluk bunu “verimsiz ve gereksiz kopyalama” olarak eleştiriyor
- llama.cpp ise parametreleri doğrudan komut satırı argümanlarıyla ayarlayabiliyor
- Parametre değiştirmek için
-
Şablon uyumluluğu sorunu
- Ollama Go template sözdizimini kullanıyor; bu da model üreticilerinin kullandığı Jinja template yapısıyla uyuşmuyor
- LM Studio ve llama.cpp Jinja'yı doğrudan desteklerken, Ollama'da dönüştürme gerekiyor
- Dönüştürme hataları nedeniyle konuşma formatının bozulduğuna dair çok sayıda rapor var
Model kayıt sistemindeki darboğaz
-
Model ekleme gecikmesi
- Yeni bir model Hugging Face'e yüklense bile Ollama'da kullanılabilmesi için paketlenip kayda alınması gerekiyor
- Desteklenen quantization biçimleri de Q4_K_M, Q8_0 gibi sınırlı seçeneklerle kısıtlı
- Sonuç olarak model çıktıktan sonra Ollama'da kullanılmasına kadar gecikme oluşuyor
- Toplulukta “yeni modelleri test etmek için llama.cpp veya vLLM kullanın” diyen PSA gönderileri yaygınlaştı
-
Quantization kısıtları
- Ollama Q5, Q6, IQ ailesini desteklemiyor
- Kullanıcılar talep ettiğinde “başka araç kullanın” yanıtı verildi
ollama run hf.co/{repo}:{quant}komutuyla Hugging Face'ten doğrudan çağrı mümkün hâle geldi, ancak model yine de iç hash deposuna kopyalanıyor ve paylaşılamıyor; şablon sorunları da sürüyor
Buluta kayış ve güvenlik sorunları
-
Bulut model eklenmesi
- 2025 sonlarında Ollama, bulutta barındırılan modeller ekledi
- Yerel odaklı bir araç olmasına rağmen bazı modellerde prompt'lar harici sunuculara gönderiliyor
- MiniMax gibi üçüncü taraf modeller kullanıldığında veriler dışarı aktarılabiliyor
- Ollama “log tutmuyoruz” dese de üçüncü taraf politikaları belirsiz
- Alibaba Cloud tabanlı modellerde veri saklamama garantisi yok
-
Güvenlik açığı
- CVE-2025-51471: Kötü niyetli bir registry sunucusunun kimlik doğrulama token'larını çalabilmesine yol açan açık
- Düzeltme PR'ı vardı, ancak aylar boyunca birleştirilmedi
- Yerel gizliliği temel değer olarak sunan bir araç için bu, ciddi yapısal bir sorun
Girişim sermayesi merkezli yapı
-
Tekrarlanan kalıp
- Açık kaynak bir projeyi wrap edip kullanıcı tabanı oluşturma → yatırım alma → gelir odaklı dönüşüm
- Ollama'nın adım adım izlediği yol:
- Açık kaynak olarak başladı, llama.cpp üzerine kuruldu
- Kaynağı geri plana itti, bağımsız bir ürün gibi paketledi
- Model registry ve format ile lock-in oluşturmaya çalıştı
- Kapalı GUI yayımladı
- Bulut hizmeti ekleyerek gelir modeline geçti
-
Vendor lock-in yapısı
- Ollama, modelleri hash'lenmiş dosya adlarıyla saklıyor; bu da başka araçlarla uyumluluğu zorlaştırıyor
- GGUF içe aktarılabiliyor, ancak dışa aktarma kullanışsız tasarlanmış
- Kullanıcılar fiilen Ollama ekosistemine bağlı kalacak şekilde konumlanıyor
Alternatif araçlar
-
llama.cpp
- OpenAI uyumlu API sunucusu (
llama-server), web arayüzü, ayrıntılı parametre kontrolü ve yüksek throughput sunuyor - 2026 Şubat'ında ggml.ai, Hugging Face'e katılarak sürdürülebilirliğini güçlendirdi
- MIT lisansı altında, 450'den fazla katkıcıya sahip
- OpenAI uyumlu API sunucusu (
-
Diğer alternatifler
- llama-swap: çoklu model yükleme ve hot-swap desteği
- LiteLLM: farklı arka uçlar arasında OpenAI uyumlu proxy sunar
- LM Studio: GUI tabanlıdır, llama.cpp kullanır, GGUF ile tam uyumludur
- Jan, Msty: yerel öncelikli tasarıma sahip açık kaynak masaüstü uygulamaları
- koboldcpp, Red Hat ramalama: container tabanlı model çalıştırma ve açık kaynak atfı konusunda net yaklaşım
Sonuç: yerel LLM ekosisteminin yönü
- Georgi Gerganov'un llama.cpp projesi, yerel yapay zeka yeniliğinin temeli
- Topluluk iş birliği sayesinde tüketici donanımında da güçlü modeller çalıştırılabiliyor
- Ollama bu temel üzerinde büyüdü, ancak kaynağı gizleme, kalite düşüşü, kapalılık ve buluta yönelme nedeniyle güvenini kaybetti
- Yerel LLM ekosisteminin ihtiyacı olan şey Ollama değil, llama.cpp
- Gerçek açıklık ve performans zaten topluluk merkezli araçlar tarafından sağlanıyor
3 yorum
Bir ölçüde katılıyorum; yerelde düzgün kullanmak için LM Studio daha iyi gibi görünüyor.
Ben de başta ollama ile başlamıştım ama bugünlerde çoktan LM Studio'ya geçmiş durumdayım.
Hacker News yorumları
Yerel LLM kullanıcılarının çoğu, UX sorunlarının Ollama sayesinde çözüldüğünü düşünüyor
Modeli tek satırlık bir komutla çalıştırabiliyor ve ROCm sürücülerini de otomatik olarak hallediyor
Buna karşılık llama.cpp adı bile bir C++ kütüphanesi gibi geliyor; bu da sıradan kullanıcıların yaklaşmasını zorlaştırıyor
Ben sadece programı kendim derlemek istemiyorum; yalnızca eğlenerek kullanmak istiyorum
Mac Mini kullanıyorum ama CLI araçları da sorun değil. Ollama'nın güçlü yanı kolay kurulum ve model indirmeydi; bu yüzden alternatif araçta da benzer bir kullanım kolaylığı bekliyorum
Model desteğinin bozuk halde entegre edilmemesi veya hatalı GGUF yüklenmemesi için kalite kontrolünün önemli olduğu düşünülüyor
Elbette doğrudan runc da kullanabilirsiniz ama çoğu kişi
docker runseçiyorUX, teknolojinin benimsenmesinde kilit bir unsur ve bir proje iyi bir arayüz oluşturamadıysa, ona bir sarmalayıcı yapmakta yanlış bir şey yok
Aynı iddiayı tekrar tekrar dile getirmekten yorulduğum için, bildiğim zaman çizelgesini ve kaynakları tek seferde derledim
Alternatif olarak llama-file öneriliyor. Mozilla AI'nin llamafile'ı işletim sisteminden bağımsız çalışan tek bir yürütülebilir dosya ve tamamen açık kaynak
Justine Tunney tarafından yapılan CosmopolitanC tabanlı bu araç, llama.cpp'yi resmi biçimde kullanıyor
Ollama'nın kullanım kolaylığı açısından 1000 kat daha iyi olduğu düşünülüyor
llama.cpp harika ama sıradan kullanıcı dostu değil
Ben Ollama ile başladım ama en güncel değişiklikler için llama.cpp'ye geçtim
Buna rağmen model yönetimi için hâlâ Ollama kullanıyorum. O kadar rahat ki önbellek dizinini yönetmek için script bile yazdım
Basit bir sohbet uygulamasıysa belki, ama OpenAI uyumlu API ve model yönetimi gerekiyorsa erişilebilirlik hızla düşüyor
Bunu sürekli değiştirmek için yeni bir model dosyası oluşturmak gerekiyordu ve bu daha da karmaşıktı
Docker tarzı yaklaşımın sıradan kullanıcılar için aslında daha rahatsız edici olduğu, ileri düzey kullanıcılar içinse llama.cpp'nin daha iyi olduğu düşünülüyor
MIT lisansına dair iki bakış açısı özetleniyor
llama.cpp'nin yaratıcısı Georgi Gerganov, yalnızca kredi verilmemesinden şikâyet etti. Yani davranışı ilk yoruma daha yakındı
MIT ahlaki bir rehber değil, hukuki bir metindir
Kişisel olarak son kullanıcıya yönelik yazılımlarda GPL kullanılmasının daha iyi olduğu düşünülüyor
MIT seçip sonra şirketler kodu alıyor diye şikâyet etmek çelişkili bulunuyor
Şirketlerin ahlakı olmadığı, yalnızca insanların ahlakı olduğu düşünülüyor
Sonuçta her iki proje de gelişmeye devam etti ve kullanıcıların önünde daha fazla seçenek oluştu
Eskiden varsayılan model klasörü değiştirilemediği için rahatsız ediciydi
Modeli kaydetmek için Dockerfile benzeri bir süreçten geçmek gerekiyordu ve model hash depolamasına kopyalandığı için konumu değiştirilemiyordu
Bu yüzden LM Studio'ya geçildi. Tam açık kaynak değil ama model klasörünü görünür kılıyor ve Hugging Face ile entegre çalışıyordu
OLLAMA_MODELSortam değişkeniyle yol belirtilebiliyorOllama'nın model dosyalarını hash blob storage içine kopyalayan yapısı, diğer araçlarla paylaşımı imkânsız hale getiriyor
Muhtemelen bu tasarım tekilleştirme için seçildi ama sonuç olarak başka araçları denemeyi zorlaştırıyor
Model dosyaları çok büyük olduğu için depolama alanı ve indirme ciddi bir yük oluşturuyor
Arch Linux'ta
pacman -Ss ollama16 sonuç döndürürken,llama.cppya dalmstudioiçin 0 sonuç çıkıyorUmarım bir gün bu değişir
Vulkan, ROCm ve CUDA sürümlerinin hepsi destekleniyor
zypperile llamacpp bulunabiliyorSürümler ve destek dağıtımdan dağıtıma değiştiği için, sonuçta bu kadar çok Linux dağıtımının var olmasının nedeni de biraz bu
yay -S llama.cppile kurdum ve Ollama'dan çok daha hızlı ve daha iyi buldum“llama.cpp” adı artık pek de kullanıcı dostu gelmiyor
Eskiden Meta'nın Llama modellerini ifade ediyordu ama artık daha güçlü açık kaynak modeller var
Şu anda “Local LLaMA” adı yerel model çalıştırmanın genel adı gibi kullanılıyor
Ollama en başından beri tüm iş akışını kontrol etmeye çalışıyormuş gibi bir izlenim verdiği için ondan kaçınıldı
Sonuç olarak bunun doğru bir karar olduğu düşünülüyor
Ollama'nın hash blob storage yapısı en büyük tuzak olarak görülüyor
Aylar boyunca model indirdiyseniz, başka bir araca geçerken hepsini yeniden indirmeniz gerekiyor
Kullanıcıların çoğu bunu ancak zaten derin biçimde yatırım yaptıktan sonra fark ediyor ve çıkış maliyetini çok daha ağır hissediyor