Moondream 3 önizlemesi: Çığır açan hızda son teknoloji düzeyinde muhakeme

(moondream.ai)

14 puan yazan GN⁺ 2025-09-28 | 1 yorum | WhatsApp'ta paylaş

Moondream 3, 9B MoE yapısı ve 2B aktif parametre kullanarak son teknoloji düzeyinde görsel muhakeme performansını hızlı ve verimli çıkarım hızıyla birlikte sunuyor
Bu model, gerçek dünya görüş görevlerine özel bir mimari, kolay eğitilebilirlik, yüksek hız ve düşük maliyet odağıyla tasarlandı
Geniş kapsamlı nesne tespiti, pointing, yapılandırılmış çıktı, OCR gibi çeşitli gerçek dünya uygulamalarında güçlü performans gösteriyor
32k token bağlam uzunluğunu destekleyerek karmaşık soru-cevap işleme yeteneğini önemli ölçüde güçlendiriyor
İlk benchmark sonuçlarında mevcut büyük modellerle kıyaslandığında yanıt hızı ve verimlilikte üstünlük gösteriyor

Giriş ve ana hedefler

Moondream 3, 9B Mixture-of-Experts(MoE) yapısı ve 2B aktif parametre tabanlı yeni bir görsel-dil modelidir
Mevcut modellere kıyasla son teknoloji görsel muhakeme yeteneği ile çok hızlı ve maliyet etkin çıkarım performansını aynı anda hedefliyor
Gerçek dünya problemlerini çözmek için şu 4 temel alana odaklanıyor
- Görsel muhakeme: Küçük model boyutuna rağmen gerçek dünya görevlerinde pratik yetenekten ödün vermeden güçlü performans sunmayı amaçlıyor
- Eğitim kolaylığı: Tıbbi görüntü yorumlama, kalabalık içinde anormal davranış tespiti gibi uzmanlaşmış görsel görevler için kolay fine-tuning'e önem veriyor
- Hız: Gerçek zamanlı işleme gerektiren görsel yapay zeka uygulamalarında (ürün sınıflandırma, drone tabanlı gözetim vb.) yüksek hız sağlıyor
- Düşük maliyet: Büyük ölçekli görüntü işleme ortamları göz önünde bulundurularak, geniş ölçekli kullanımda bile işletme maliyetlerini en aza indirmeyi hedefliyor
9B MoE model olmasına rağmen yalnızca 2B aktif parametreyi çalıştırarak hızlı ve düşük maliyetli gerçek zamanlı çıkarım olanağı sağlıyor
Reinforcement Learning kullanarak öğrenme verimliliğini artırıyor ve karmaşık ortamlarda da yüksek uyum yeteneği sergiliyor
Bağlam uzunluğunu mevcut 2k'dan 32k'ya büyük ölçüde genişleterek karmaşık bağlam işleme sorunlarını iyileştiriyor

Moondream 3 gerçek kullanım örnekleri

Nesne tespiti (Object Detection)
- Moondream 3, basit etiket sınıflandırmasının ötesinde karmaşık sorguları anlayıp duruma uygun nesne tespiti yapabiliyor
- Frontier modellerle karşılaştırıldığında, nesne tespiti ve pointing gibi temel işlevlerde farklılaşan bir performans sunuyor
  - Örnek1: "Mor çorap giyen koşucu" tespiti
  - Örnek2: "Miktar girişi" UI öğesi tespiti
Pointing (işaret etme)
- Moondream 3, görüntü içindeki belirli nesneleri hassas biçimde işaret etme (pointing) yeteneğini yerleşik olarak sunuyor
  - Örnek3: "Şişe" nesnesini işaret etme
  - Örnek4: "Makarna için en uygun pişirme aracı" seçimi
Yapılandırılmış çıktı (Structured Output)
- 32k bağlam uzunluğu sayesinde karmaşık yapıda çıktılar üretme yeteneği gelişti; minimum prompt ile JSON gibi veri odaklı sonuçlar döndürebiliyor
  - Örnek5: Kızak köpekleri bilgisi için dog_id, fur_color, harness_color alanlarını içeren JSON dizisi oluşturma
OCR (optik karakter tanıma)
- Önceye kıyasla OCR performansı büyük ölçüde iyileştirildi ve gerçek dünyadaki çeşitli uygulamalarda kullanılabiliyor
- Çok küçük yazılarda bazı sınırlamalar olsa da tablo gibi yapılandırılmış bilgi çıkarmada yüksek doğruluk gösteriyor
  - Örnek6: Kimyasal reaksiyon tablosunu Markdown tabloya dönüştürme

Benchmark

Moondream 3, çeşitli benchmark'larda önde gelen VLM'lerle yarışabilecek performans gösteriyor
Ancak Moondream 3, yanıt hızı açısından büyük modellere karşı pratik avantajını istikrarlı biçimde kanıtlamayı sürdürüyor
Daha kapsamlı benchmark sonuçları ve çıkarım süresi karşılaştırmaları daha sonra paylaşılacak

Moondream 3 teknik notları

64 uzmandan (Experts) her token için 8'inin etkinleştiği ince taneli seyrek Mixture-of-Experts modeli
Moondream 2'den (2B Dense) drop upcycling başlatma tekniği uygulanıyor
Gerçek eğitimde 32k token tam bağlam uzunluğu desteği sunuyor
Uzun bağlam örneklerini ön eğitime karıştırarak ek bir bağlam genişletme aşaması olmadan etkili uygulama sağlıyor
Eğitim sırasında sıcaklık ölçekleme ve yapılandırılmış attention ayarlamalarıyla uzun bağlam anlama yeteneğini güçlendiriyor
Mantıksal muhakeme ve mantıksal olmayan açıklama olmak üzere iki modu destekliyor; özellikle görüntü tabanlı muhakemede (grounding) uzmanlaşıyor
Pekiştirmeli öğrenme (RL) tabanlı eğitimle görsel muhakemede örneğe bağımlılığı ve uyum yeteneğini kademeli olarak iyileştiriyor
Load balancing, router orthogonal loss gibi yöntemlerle token bazlı uzmanlaşmayı teşvik ettikten sonra, post-training aşamasında kararlılığı güçlendiriyor
LSE bastırma, sıcaklık ayarı gibi attention bileşeni iyileştirmeleriyle doğruluk ve açıklığı artırıyor

Sonuç ve gelecek planları

Bu önizlemede optimize edilmemiş çıkarım kodu nedeniyle hız düşük olabilir; model için ek eğitim hâlen sürüyor
Gelecekteki resmî sürümde performans, benchmark ve çıkarım hızının büyük ölçüde iyileşmesi bekleniyor
Quantization, distilled küçük sürüm gibi çeşitli türev modeller üretme planları da bulunuyor
Moondream Playground ve HuggingFace üzerinde kullanılabiliyor; geri bildirim ve sorular için Discord üzerinden iletişim kurulabiliyor

Not: Frontier modeller yerleşik temel nesne tespitini desteklemediği için, karşılaştırma amacıyla şablon prompt kullanıldı

1 yorum

GN⁺ 2025-09-28

Hacker News yorumları

Moondream 2'yi gerçekten çok faydalı buluyorum; başlıca kullanımım yeni sınıflar için nesne tespiti veri setlerini otomatik etiketlemek ve ardından bunu benzer doğrulukta ama çok daha küçük bir CNN'e distill etmek.
2025-01-09 sürüm etiketinden sonra duyurulan performans artışlarını pek hissedemedim; sonraki sürümlerde recall iyileşmiş olsa da precision'ın belirgin şekilde düşmesi hayal kırıklığı yarattı.
Bu tür sorunları daha iyi çözmek için Moondream gibi Vision-Language modellerinin class confidence da raporlaması iyi olurdu.
Özel bir nesne tespiti API'si sunmalarını da çok beğeniyorum; başka modellerde ya da wrapper'larda görmedim.
Moondream 3'ün çıkarım optimizasyonu sonuçlarını merakla bekliyorum, ekibi tebrik ederim.
Kurucu Vik'i X'te takip etmeye değer.
- Precision/recall sorunlarına dair örnekleri olan varsa vik@m87.ai adresine e-posta gönderebileceği yönünde bir yanıt verilmiş.
Ben de veri seti otomatik etiketleme için kullandım ve gerçekten çok iyi çalışıyor.
Moondream modelinin performansı gerçekten etkileyici.
Ama büyük üç laboratuvarın sonuçlarına bakınca Claude ve OpenAI'ın ne kadar kötü kaldığını görmek şaşırtıcıydı.
Gemini, Moondream'den geride kalsa da yine de kullanılabilir denebilecek tek model gibi duruyor.
Performans farkının bu kadar büyük olacağını düşünmemiştim.
- İlginç olan şu ki D20 zarındaki sayıyı doğru okuyabilen tek model Gemini.
  ChatGPT sürekli yanlış okuyor, Claude ise zarın üst yüzü kapalı olduğu için okuyamadığını söylüyor (oysa kapalı değil).
- Moondream bu kadar iyiyken hâlâ büyük teknoloji şirketlerinden biri tarafından satın alınmamış olması şaşırtıcı.
  Anthropic, OpenAI gibi şirketler bu teknolojiyi platformlarına mutlaka katmak ister gibi görünüyor.
  Bunu yapanlar zengin olmayı hak ediyor ve büyük organizasyonların erişimiyle birleşirse LLM'lerin görsel kullanım alanı çok daha faydalı hale gelir.
- Gemini, OCR benzeri işlerde gerçekten çok güçlü ama diğer görüntüyle ilgili görevlerin çoğunda performansı belirgin biçimde düşme eğiliminde.
Ortaya çıkan sonuçlar gerçekten çok etkileyici.
Ben de bounding box otomasyonu için Gemini'yi tercih ediyordum; 9B bir model bunu geçiyorsa ciddi biçimde heyecan verici.
Moondream 2 Apache 2 lisanslıydı ama 3 preview BSL görünüyor; bunun kalıcı bir lisans değişikliği olup olmadığını merak ediyorum.
- Moondream3 lisansı incelendiğinde 2 yıl sonra Apache 2'ye geçeceği görülüyor.
paper.design'da moondream2 kullanarak kullanıcıların yüklediği görselleri otomatik etiketliyoruz (katman ağacı için).
Gerçekten hızlı ve doğru; 3'ü de merakla bekliyorum.
Moondream cloud fiyat bilgisini bulmak için 5 dakika aradım ama sanırım hiç yok; en azından kayıt olmadan görünmüyor.
5.000 ücretsiz istek var ama gerçek bir hizmete bağlamadan önce fiyatın makul olup olmadığını görmek benim için en önemli konu.
- Cloud yakında çıkacak.
  Çıkarım maliyetlerini daha da düşürmek için optimizasyon yapılıyor ve en iyi fiyatı sunmaya hazırlanıyorlar.
  Çıkışı erkenden duymak isteyenler X'te @moondreamai hesabını takip edebilir.
MoE mimarisinin seçimi özellikle ilginç geldi.
Yalnızca 2B parametreyi etkinleştirirken 8B model seviyesinde performansı koruması, edge cihaz dağıtımları için büyük bir değişim yaratabilir.
Production ortamında gecikmenin kritik olduğu vision model dağıtımlarıyla çok deneyimim var; bu tür sparse activation, büyük vision-language modellerinin çıkarım maliyeti nedeniyle benimsenmesinin önündeki engelleri ciddi biçimde azaltabilir.
Grafik anlama yeteneği de belge otomasyonu iş akışları açısından umut verici.
Farklı görüntü kalitesi ya da ışık koşullarında model tutarlılığını test eden biri olup olmadığını merak ediyorum.
Küçük modeller bu tür koşullarda çoğu zaman amiral gemisi modellere göre daha fazla zorlanıyor.
Etkileyici bir model.
Bunu bilgisayar/tarayıcı kontrolü için deneyen biri var mı merak ediyorum; ayrıca grafik ve chart'ları ne kadar iyi işlediğini de öğrenmek isterim.
- point becerisi çok büyük miktarda UI verisiyle eğitildi ve bunu daha büyük bir driver model ile birleştirerek UI otomasyonu için kullanan çok sayıda kullanıcı var.
  Nihai sürümden önce agent ortamlarında uçtan uca çalışması için ek eğitim deniyorlar.
  Bu yüzden context length de artırıldı.
  Chart anlama çok farklı türleri kapsıyor ama oldukça iyi.
  Blogda ChartQA benchmark'ını paylaştılar; GPT5* seviyesine yakın ve Gemini 2.5 Flash'tan biraz daha iyi.
  - Ancak GPT5 çok daha fazla chart/grafik türünde iyi çalışacaktır; buna karşılık Moondream, fiyat/gecikme nedeniyle GPT5'in kullanmasının zor olduğu vision AI kullanım senaryolarına daha uygun.
- Ben veri seti etiketleme için kullanıyorum ve sonuçların nasıl çıkacağını merak ediyorum.
2B aktif parametre kavramının token başına çıkarımı mı ifade ettiğini ve context length değiştiğinde bunun nasıl ölçeklendiğini merak ediyorum.
Özellikle MoE'nin çıkarım sırasında aktivasyonu nasıl etkilediği ve bunun gecikme açısından pratikte ne anlama geldiğine dair daha fazla açıklama duymak isterim.
Bu modeli yerelde makul seviyede çalıştırmak için önerebileceğiniz en ucuz donanım nedir?
- Henüz quantized bir sürüm yok, bu yüzden yalnızca ağırlıklar için yaklaşık 20GB bellek gerekiyor.
  KV cache de dahil edilince 32GB RAM'li bir CPU kurulumu en ucuz ve aynı zamanda idare eder hızda seçenek gibi görünüyor.
  Aktif parametre sayısı az olduğu için CPU'da da performans fena değil.
Qwen3-VL modelleriyle Moondream performans karşılaştırmasını merak ediyorum.

Moondream 3 önizlemesi: Çığır açan hızda son teknoloji düzeyinde muhakeme

Giriş ve ana hedefler

Moondream 3 gerçek kullanım örnekleri

Nesne tespiti (Object Detection)

Pointing (işaret etme)

Yapılandırılmış çıktı (Structured Output)

OCR (optik karakter tanıma)

Benchmark

Moondream 3 teknik notları

Sonuç ve gelecek planları

İlgili okumalar

1 yorum

Hacker News yorumları