Ollama, multimodal modeller için yeni bir motor duyurdu

(ollama.com)

5 puan yazan GN⁺ 2025-05-17 | 1 yorum | WhatsApp'ta paylaş

Ollama, yeni bir motor ile multimodal (metin + görüntü) model desteği sunmaya başladı
Llama 4 Scout ve Gemma 3 gibi çeşitli görsel multimodal modelleri destekleyerek, görüntü ve metni birleştiren soru-cevap kullanımını mümkün hale getirdi
Yeni motor, geliştirilmiş model modülerliği, daha yüksek doğruluk ve verimli bellek yönetimi sağlıyor
Görüntü önbellekleme ve donanım metadata’sından yararlanma gibi yöntemlerle hızlı çıkarım performansı ve donanım optimizasyonu sunuyor
İleride daha uzun context desteği, tool calling, streaming gibi çeşitli özellik genişletmeleri planlanıyor

Ollama'nın multimodal model desteği

Ollama, yeni multimodal motorunu devreye alarak görüntü ve metni birlikte işleyen en yeni görsel multimodal modelleri destekliyor.

Kapsamlı multimodal anlama ve çıkarım

Llama 4 Scout

Ollama, Llama 4 Scout'u (109 milyar parametreli, mixture-of-experts modeli) destekliyor
Örnek olarak, video kareleri üzerinde konuma dayalı sorular sorulabiliyor
- Örn.) belirli bir bina, çevresel unsurlar ve arka plan bilgileri gibi çeşitli görüntü özellikleri tespit edilebiliyor
Ardından farklı takip soruları da doğal biçimde sürdürülebiliyor
- Örn.) "Bu binadan Stanford'a ne kadar uzak?", "Gitmenin en iyi yolu nedir?" gibi sorulara doğru bilgiler veriyor
- Birden çok ulaşım yöntemi, rota ve tahmini süre gibi gerçek duruma uygun yanıtlar sunuyor

Gemma 3

Gemma 3, birden fazla görüntüyü aynı anda alıp bu görüntüler arasındaki ilişkileri analiz edebiliyor
- Örn.) 4 görüntüde ortak olarak görülen hayvan ve bitkileri, belirli bir sahnenin bulunup bulunmadığını veya sıra dışı durumları hızlıca tespit edebiliyor
- Eğlenceli bir örnek olarak, bir lamanın ve bir yunusun boks yaptığı sahneyi görüp kimin kazanacağını analiz ederek varlıkların özelliklerini ve dinamiklerini değerlendiriyor
Reklam

Belge tanıma ve analiz

Qwen 2.5 VL

Qwen 2.5 VL modeli, metin tanıma (OCR) ve görüntü içindeki belirli metin bilgilerini çıkarmak için kullanılıyor
- Gerçek kullanım örnekleri arasında çek üzerindeki bilgilerin çıkarılması veya bahar için asılan dikey Çince yazıların İngilizceye çevrilmesi yer alıyor

Ollama multimodal motorunun özellikleri

Ollama bugüne kadar model desteği için ggml-org/llama.cpp projesine dayanıyordu ve geliştirmesini kullanılabilirlik ile model taşınabilirliği odağında sürdürdü
Son dönemde farklı araştırma laboratuvarları multimodal modeller yayınlarken, Ollama da hedeflediği daha geniş model desteği için kendi motorunu güçlendirdi
Yeni motor, multimodal modelleri bağımsız ve birinci sınıf varlıklar olarak ele alıyor; iş ortakları ve topluluk katılımını da artırıyor

Motorun gelişiminin anlamı

Ollama'nın yerel çıkarımda güvenilirliğini ve doğruluğunu artırıyor, ayrıca gelecekte farklı multimodal alanları desteklemek için temel oluşturuyor (örn. ses, görüntü üretimi, video üretimi, uzun context desteği, gelişmiş araç kullanımı vb.)

Model modülerliği

Her modelin “etki alanı” bağımsız hale getirilerek güvenilirlik artırılıyor ve geliştiricilerin yeni modelleri kolayca entegre etmesi sağlanıyor
- Mevcut ggml/llama.cpp yalnızca metin odaklı modelleri destekliyor; multimodal yapılarda ise metin decoder'ı ile vision encoder'ı ayrılıyor ve ayrı çalışıyor
- Görüntüler vision algoritması içinde embedding'e dönüştürülüp metin modeline aktarılmak zorunda olduğundan, modele özgü mantık daha yalın biçimde uygulanabiliyor
- Ollama içinde modeller, kendi embedding projection katmanlarını ve modele özgü eğitim düzenine uygun ayrıştırmayı kendileri yapabiliyor
- Model geliştiricileri ek patch'lere veya karmaşık koşul ifadelerine gerek duymadan kendi modeline ve eğitimine odaklanabiliyor
- Bazı model yapısı örnekleri Ollama'nın GitHub deposunda görülebiliyor

Doğruluk iyileştirmesi

Büyük görüntüler çok fazla token üretebildiği için batch boyutunu aşabiliyor
- Görüntü batch sınırını aşarsa konumsal bilgiler bozulabiliyor
Ollama, görüntü işleme sırasında ek metadata vererek doğruluğu artırıyor
- Causal attention uygulanıp uygulanmayacağı, görüntü embedding'lerinin batch'lere bölünmesi ve sınırların yönetilmesi gibi ayrıntıları özenle ele alıyor
- Bölme noktaları uygun olmazsa çıktı kalitesi düşebileceğinden, her modelin makalesindeki ölçütlere göre eşikler ayarlanıyor
Diğer yerel çıkarım araçları bunu farklı şekillerde uygularsa da Ollama, model tasarımı ve eğitim yöntemine uygun doğru işleme ile kaliteyi garanti ediyor

Bellek yönetimi optimizasyonu

Görüntü önbellekleme: Bir kez işlenen görüntüler bellekte tutulmaya devam ediyor ve sonraki prompt'ların işlenmesi hızlanıyor. Bellek sınırına ulaşılmadığı sürece görüntüler korunuyor
Bellek tahmini ve KV cache optimizasyonu: Donanım üreticileri ve işletim sistemi ortaklarıyla iş birliği yapılarak donanım metadata'sı doğru biçimde tanınıyor ve bellek kullanımı optimize ediliyor
- Firmware sürümlerine göre doğrulama çalışmaları yapılıyor, yeni özellikler için benchmarking yürütülüyor
Ollama, causal attention'ı model bazında ayrı ayrı optimize ediyor ve grup düzeyinde değil, her modele özel ayarlar sunuyor
- Örnekler:
  - Google DeepMind'ın Gemma 3'ü: sliding window attention ile context uzunluğunun yalnızca bir kısmını ayırıyor, kalan belleği eşzamanlı çıkarım gibi işlere tahsis ediyor
  - Meta'nın Llama 4 Scout, Maverick vb. modelleri: chunked attention, 2D rotary embedding gibi özellikleri destekliyor ve mixture-of-experts modellerinde uzun context desteği sağlıyor
Reklam
Attention katmanları tam olarak uygulanmamış modeller "çalışıyor" gibi görünebilir, ancak uzun vadede çıktı kalitesi düşebilir ve anormal sonuçlar üretilebilir

Gelecek planları

Daha uzun context uzunluğu desteği
Çıkarım/düşünme yeteneklerinin güçlendirilmesi
Tool calling ve streaming yanıtları
Bilgisayarı doğrudan kullanma yeteneklerinin genişletilmesi

Teşekkür

Model geliştirmeye katkı sunan kurumlar ve araştırmacılar
- Google DeepMind, Meta Llama, Alibaba Qwen, Mistral, IBM Granite gibi görsel model geliştiren laboratuvarlara ve topluluk üyelerine teşekkür ediliyor
GGML
- GGML ekibinin tensor kütüphanesi, Ollama'nın çıkarım motorunun temel bileşenlerinden biri. Go içinden GGML'ye doğrudan erişilerek özel çıkarım grafikleri ve karmaşık model mimarileri tasarlanabiliyor
Donanım iş ortakları
- Farklı cihazlarda çıkarım performansını artırmaya katkı sağlayan NVIDIA, AMD, Qualcomm, Intel, Microsoft ve diğer donanım iş ortaklarına teşekkür ediliyor

1 yorum

GN⁺ 2025-05-17

Hacker News görüşleri

Bu noktada Ollama'nın yeni bir motor duyurusunu duymaktan duyulan şaşkınlık ifade ediliyor; bunun, llama.cpp'nin sonunda kararlı vision özelliğini ana dala dahil ederek uzun süren çabanın meyve vermesinden kaynaklandığı izlenimi paylaşılıyor. Ollama'nın da görünüşe göre bu özelliği uzun süredir hazırladığı tahmin ediliyor. llama.cpp'ye olan ilk bağımlılığı kırıp bağımsız ilerleme kararının mantıklı olduğu düşünülüyor.
İki projenin multimodal özelliği ekleme biçimleri arasındaki somut farkın ne olduğu merak ediliyor. LLaVA desteği uzun zamandır vardı; bu yüzden geçmişte özel bir işleme yöntemi mi gerektiği sorgulanıyor. Yazının tamamında bu farka değinilmesi beklense de, Ollama'daki multimodal desteğin tamamen yeni eklenmiş gibi ele alınması kafa karıştırıcı bulunuyor.
"Multimodal" teriminin yalnızca metin ve görüntüyü değil, sesi de (ve potansiyel olarak videoyu da) kapsaması gerektiği düşünülüyor. Bir model yalnızca görsel üretimi ya da görsel analizi yapabiliyorsa, "vision modeli" demenin daha doğru olduğu savunuluyor. Qwen2.5-Omni ile Qwen2.5-VL gibi modellerde bu ayrımın net yapılması gerektiği vurgulanıyor; bu anlamda Ollama'nın yeni motorunun eklediği şeyin "vision" desteği olduğu açıklanıyor.
Video girdisiyle çalışmak istediğini belirten biri, Qwen2.5-Omni ve Ollama'da video girdisinin mümkün olup olmadığını soruyor.
Ollama'nın "yeni motoru" hakkında çok konuşulmasına rağmen bunun gerçekte nasıl uygulandığına dair somut bilgi görmek istendiği söyleniyor. llama.cpp'nin de çok etkileyici bir proje olduğu, dolayısıyla onun yerine geçecek bir motor yapıldıysa bunun nasıl inşa edildiğine dair örnekler görmenin ilginç olacağı belirtiliyor. GGML tensor kütüphanesinin burada temel rol oynadığı tahmin ediliyor; Go dilinde FFI aracılığıyla doğrudan model davranışı yazılıp (ör. Gemma3 implementasyonu) GGML yeteneklerinden yararlanılan bir yapı olabileceği düşünülüyor. Bu tür teknik ayrıntıların resmi blogda daha açık biçimde yer alması gerektiği ifade ediliyor.
Ollama'nın şimdiye kadar şeffaflık eksikliği, belirsiz katkı/credit verme biçimi ve kullanıcı odaklı olmayan kararları nedeniyle eleştirilen bir şirket imajına sahip olduğu söyleniyor. Buna karşılık bu yazıda katkıda bulunanlara daha çok yer verilmesi şaşırtıcı bulunuyor; bunun kullanıcı eleştirileri sonrası yapılmış bir ayarlama olabileceği tahmin ediliyor.
LLM dünyasındaki "*llama" adlandırma geleneğinin aşırı kafa karıştırıcı olduğu söyleniyor; benzer isimli çok sayıda projenin ortalıkta olması karışıklığı artırıyor.
AI/ML alanındaki gelişme hızının fazla yüksek olduğu ve takip etmenin zorlaştığı paylaşılıyor. Dikkat etmezsen olan biteni anlamanın güç olduğu, ayrıca "meme" tarzı isimlerin tercih edilme eğilimi olduğu belirtiliyor. Geçmişte Susam Sokağı karakterleri, YOLO model ailesi gibi akımlar olduğu ve konferans makalelerinin de bundan muaf olmadığına dair bir anekdot ekleniyor.
Konudan biraz saparak, bazı kullanıcıların Ollama'yı neden olumsuz değerlendirdiği soruluyor; "gidin doğrudan llama.cpp çalıştırın" demenin ötesinde yeterli açıklama görülmediği belirtiliyor.
Reddit ve GitHub issue bağlantıları paylaşarak, Ollama'nın llama.cpp'ye yeterli credit vermemesiyle ilgili uzun süredir devam eden bir sorun olduğu anlatılıyor. Hatta bazı projelerde doğrudan llama.cpp kullanılmasına rağmen takdirin Ollama'ya gittiği belirtiliyor. Ollama'nın doğrudan katkı yapmadığı (ki bu zorunlu değil), ancak dahili olarak tutulan bir fork bulunduğu ve ilgilenenlerin istedikleri zaman cherry-pick yöntemiyle kod kullanabildiği söyleniyor.
Daha önce değinilen kültür/lisans/FOSS meselelerinden ayrı olarak, dosya depolama biçiminden de şikayet ediliyor. Ollama'nın kendi disk depolama ve registry yapısını getirerek yeniden kullanımı zorlaştırdığı söyleniyor. Uzun vadede gelir elde etmeyi hedefleyen kapalı bir yapı tasarlamış olabileceği tahmin ediliyor. Bunun Docker'daki gibi yinelenen depolamayı önleme amacı taşıyabileceği ama pratikte kullanılabilirliği kötüleştirdiği belirtiliyor. Sonuç olarak 30GB'ı aşan büyük dosyaların kopya kopya saklanması gibi can sıkıcı bir durum doğduğu, bu yüzden küçük bir sorunun bile büyük hissedildiği ifade ediliyor. Farklı ekosistemlerle uyumlu standart bir yaklaşımın daha iyi olacağı, bu rahatsızlık nedeniyle Ollama'nın artık kullanılmadığı söyleniyor.
Ollama, LLM dünyasının Docker benzeri çözümü olarak değerlendiriliyor; kullanıcı deneyimi ve model dosyası sözdiziminin de Dockerfile'dan ilham aldığı izlenimi veriyor. Docker'ın ilk zamanlarında Docker ve LXC tartışmaları olduğu, fakat Docker'ın kullanıcı deneyimindeki yeniliğinin gözden kaçırıldığı hatırlatılıyor. Yine de llama.cpp'ye uzun süre yeterli takdir verilmemesi problemli bulunuyor; şu anda ise credit konusunda biraz daha açık davranıldığı ekleniyor.
Ollama'nın toplulukla işbirliği yapmamasından rahatsız olunduğu belirtiliyor. VC destekli bir şirket olduğu için gelir modeline dair soru işaretlerinin sürdüğü söyleniyor. llama.cpp, lmstudio, ramalama gibi diğer alternatiflerde her birinin durumu daha net görülebiliyor. Özellikle ramalama'nın çeşitli ilgili açık kaynak projelere çok katkı yaptığı belirtilip ilgili bir GitHub bağlantısından söz ediliyor.
Ollama'nın aslında sadece llama.cpp için bir frontend olmasına rağmen bunu görünür kılmaması ve kabul etmemesi hayal kırıklığı yaratıyor.
Ollama örneklerinden biri olan "dikey Çin bahar beyiti çevirisi"nde çok sayıda yanlış çeviri olduğu belirtiliyor. Blog yazısını hazırlayan kişinin gerçek bir Çince kullanıcısı olmadığı tahmin ediliyor. Her bölümde gerçek içerikle Ollama çıktısının nasıl farklılaştığı ayrıntılı biçimde analiz ediliyor.
Bu örneği hazırlayan bakımcı doğrudan tartışmaya katılıp Çinli olduğunu açıkça belirtiyor ve bu da güvenilirliği artırıyor. İngilizce çevirinin genel olarak oldukça doğru olduğu kanaatini paylaşıyor; modelin hatalarının veya demodaki kusurların gizlenmediğini ya da manipüle edilmediğini vurguluyor. Uzun vadede model kalitesinin daha da iyileşmesini umduğunu ekliyor.
Bunu bizzat denemeyi planladığını, pratik örnekler ve ayrıntıların hemen görünür olması nedeniyle haberin sunum tarzını beğendiğini söyleyen bir yorum var.
Ollama'nın güçlü yanı, ekstra ayar gerektirmeden basit Docker komutlarıyla modeli hemen çalıştırabilmesiydi. Ancak görüntü ve video kullanılması gerektiğinde Docker GPU kullanmadığı için teknik sınırlamalar ortaya çıktığı söyleniyor. Ollama'nın Docker entegrasyonunu gelecekte nasıl sürdüreceği merak ediliyor; yoksa bu özelliğin projenin daha az önem verilen yan unsurlarından birine dönüşüp dönüşmeyeceği sorgulanıyor.
Bazı platformlarda Docker içinde GPU kullanılabildiği, ancak bunun daha fazla ayar gerektirdiği ve NVIDIA'nın ilgili belgeleri sunduğu belirtiliyor.
Örneklerden birindeki Stanford yol tarifi bölümünde gerçekten yanlış bilgi çıkmasının komik bulunduğu söyleniyor; CA-85'in Palo Alto'nun daha güneyinde olduğuna dair yerel trafik bilgisi paylaşılıyor.
Yaklaşık bir yıldır Ollama ile yerel modeller kullandığını ve memnun olduğunu söyleyen biri, ancak Llava gibi multimodal destekleri çoğunlukla metin ağırlıklı kullandığı için pek deneyimlemediğini belirtiyor. Multimodal yerel modellerle yapılmış yararlı ve etkileyici proje önerileri istediğini, kişisel proje fikirleri aradığını ekliyor.