- Ollama, yeni bir motor ile multimodal (metin + görüntü) model desteği sunmaya başladı
- Llama 4 Scout ve Gemma 3 gibi çeşitli görsel multimodal modelleri destekleyerek, görüntü ve metni birleştiren soru-cevap kullanımını mümkün hale getirdi
- Yeni motor, geliştirilmiş model modülerliği, daha yüksek doğruluk ve verimli bellek yönetimi sağlıyor
- Görüntü önbellekleme ve donanım metadata’sından yararlanma gibi yöntemlerle hızlı çıkarım performansı ve donanım optimizasyonu sunuyor
- İleride daha uzun context desteği, tool calling, streaming gibi çeşitli özellik genişletmeleri planlanıyor
Ollama'nın multimodal model desteği
Ollama, yeni multimodal motorunu devreye alarak görüntü ve metni birlikte işleyen en yeni görsel multimodal modelleri destekliyor.
Kapsamlı multimodal anlama ve çıkarım
Llama 4 Scout
- Ollama, Llama 4 Scout'u (109 milyar parametreli, mixture-of-experts modeli) destekliyor
- Örnek olarak, video kareleri üzerinde konuma dayalı sorular sorulabiliyor
- Örn.) belirli bir bina, çevresel unsurlar ve arka plan bilgileri gibi çeşitli görüntü özellikleri tespit edilebiliyor
- Ardından farklı takip soruları da doğal biçimde sürdürülebiliyor
- Örn.) "Bu binadan Stanford'a ne kadar uzak?", "Gitmenin en iyi yolu nedir?" gibi sorulara doğru bilgiler veriyor
- Birden çok ulaşım yöntemi, rota ve tahmini süre gibi gerçek duruma uygun yanıtlar sunuyor
Gemma 3
- Gemma 3, birden fazla görüntüyü aynı anda alıp bu görüntüler arasındaki ilişkileri analiz edebiliyor
- Örn.) 4 görüntüde ortak olarak görülen hayvan ve bitkileri, belirli bir sahnenin bulunup bulunmadığını veya sıra dışı durumları hızlıca tespit edebiliyor
- Eğlenceli bir örnek olarak, bir lamanın ve bir yunusun boks yaptığı sahneyi görüp kimin kazanacağını analiz ederek varlıkların özelliklerini ve dinamiklerini değerlendiriyor
Belge tanıma ve analiz
Qwen 2.5 VL
- Qwen 2.5 VL modeli, metin tanıma (OCR) ve görüntü içindeki belirli metin bilgilerini çıkarmak için kullanılıyor
- Gerçek kullanım örnekleri arasında çek üzerindeki bilgilerin çıkarılması veya bahar için asılan dikey Çince yazıların İngilizceye çevrilmesi yer alıyor
Ollama multimodal motorunun özellikleri
- Ollama bugüne kadar model desteği için ggml-org/llama.cpp projesine dayanıyordu ve geliştirmesini kullanılabilirlik ile model taşınabilirliği odağında sürdürdü
- Son dönemde farklı araştırma laboratuvarları multimodal modeller yayınlarken, Ollama da hedeflediği daha geniş model desteği için kendi motorunu güçlendirdi
- Yeni motor, multimodal modelleri bağımsız ve birinci sınıf varlıklar olarak ele alıyor; iş ortakları ve topluluk katılımını da artırıyor
Motorun gelişiminin anlamı
- Ollama'nın yerel çıkarımda güvenilirliğini ve doğruluğunu artırıyor, ayrıca gelecekte farklı multimodal alanları desteklemek için temel oluşturuyor (örn. ses, görüntü üretimi, video üretimi, uzun context desteği, gelişmiş araç kullanımı vb.)
Model modülerliği
- Her modelin “etki alanı” bağımsız hale getirilerek güvenilirlik artırılıyor ve geliştiricilerin yeni modelleri kolayca entegre etmesi sağlanıyor
- Mevcut ggml/llama.cpp yalnızca metin odaklı modelleri destekliyor; multimodal yapılarda ise metin decoder'ı ile vision encoder'ı ayrılıyor ve ayrı çalışıyor
- Görüntüler vision algoritması içinde embedding'e dönüştürülüp metin modeline aktarılmak zorunda olduğundan, modele özgü mantık daha yalın biçimde uygulanabiliyor
- Ollama içinde modeller, kendi embedding projection katmanlarını ve modele özgü eğitim düzenine uygun ayrıştırmayı kendileri yapabiliyor
- Model geliştiricileri ek patch'lere veya karmaşık koşul ifadelerine gerek duymadan kendi modeline ve eğitimine odaklanabiliyor
- Bazı model yapısı örnekleri Ollama'nın GitHub deposunda görülebiliyor
Doğruluk iyileştirmesi
- Büyük görüntüler çok fazla token üretebildiği için batch boyutunu aşabiliyor
- Görüntü batch sınırını aşarsa konumsal bilgiler bozulabiliyor
- Ollama, görüntü işleme sırasında ek metadata vererek doğruluğu artırıyor
- Causal attention uygulanıp uygulanmayacağı, görüntü embedding'lerinin batch'lere bölünmesi ve sınırların yönetilmesi gibi ayrıntıları özenle ele alıyor
- Bölme noktaları uygun olmazsa çıktı kalitesi düşebileceğinden, her modelin makalesindeki ölçütlere göre eşikler ayarlanıyor
- Diğer yerel çıkarım araçları bunu farklı şekillerde uygularsa da Ollama, model tasarımı ve eğitim yöntemine uygun doğru işleme ile kaliteyi garanti ediyor
Bellek yönetimi optimizasyonu
- Görüntü önbellekleme: Bir kez işlenen görüntüler bellekte tutulmaya devam ediyor ve sonraki prompt'ların işlenmesi hızlanıyor. Bellek sınırına ulaşılmadığı sürece görüntüler korunuyor
- Bellek tahmini ve KV cache optimizasyonu: Donanım üreticileri ve işletim sistemi ortaklarıyla iş birliği yapılarak donanım metadata'sı doğru biçimde tanınıyor ve bellek kullanımı optimize ediliyor
- Firmware sürümlerine göre doğrulama çalışmaları yapılıyor, yeni özellikler için benchmarking yürütülüyor
- Ollama, causal attention'ı model bazında ayrı ayrı optimize ediyor ve grup düzeyinde değil, her modele özel ayarlar sunuyor
- Örnekler:
- Google DeepMind'ın Gemma 3'ü: sliding window attention ile context uzunluğunun yalnızca bir kısmını ayırıyor, kalan belleği eşzamanlı çıkarım gibi işlere tahsis ediyor
- Meta'nın Llama 4 Scout, Maverick vb. modelleri: chunked attention, 2D rotary embedding gibi özellikleri destekliyor ve mixture-of-experts modellerinde uzun context desteği sağlıyor
- Örnekler:
- Attention katmanları tam olarak uygulanmamış modeller "çalışıyor" gibi görünebilir, ancak uzun vadede çıktı kalitesi düşebilir ve anormal sonuçlar üretilebilir
Gelecek planları
- Daha uzun context uzunluğu desteği
- Çıkarım/düşünme yeteneklerinin güçlendirilmesi
- Tool calling ve streaming yanıtları
- Bilgisayarı doğrudan kullanma yeteneklerinin genişletilmesi
Teşekkür
- Model geliştirmeye katkı sunan kurumlar ve araştırmacılar
- Google DeepMind, Meta Llama, Alibaba Qwen, Mistral, IBM Granite gibi görsel model geliştiren laboratuvarlara ve topluluk üyelerine teşekkür ediliyor
- GGML
- GGML ekibinin tensor kütüphanesi, Ollama'nın çıkarım motorunun temel bileşenlerinden biri. Go içinden GGML'ye doğrudan erişilerek özel çıkarım grafikleri ve karmaşık model mimarileri tasarlanabiliyor
- Donanım iş ortakları
- Farklı cihazlarda çıkarım performansını artırmaya katkı sağlayan NVIDIA, AMD, Qualcomm, Intel, Microsoft ve diğer donanım iş ortaklarına teşekkür ediliyor
1 yorum
Hacker News görüşleri