15 puan yazan GN⁺ 2025-05-14 | 1 yorum | WhatsApp'ta paylaş
  • Apple'ın CVPR 2025'te sunduğu "FastVLM: Efficient Vision Encoding for Vision Language Models" için resmi repo
  • FastViTHD, token sayısını azaltma ve yüksek çözünürlüklü görüntülerin kodlama süresini kısaltma performansı sunuyor
  • En küçük model, LLaVA-OneVision-0.5B'ye kıyasla 85 kat daha hızlı sonuçlar ve 3,4 kat daha küçük encoder boyutu sağlıyor
  • Büyük model, Cambrian-1-8B'ye kıyasla üstün performans ve 7,9 kat daha yüksek hız sunuyor
  • iPhone gibi mobil cihazlarda çalışan demo uygulaması sağlanıyor

FastVLM projesinin önemi ve avantajları

  • FastVLM, görsel dil modelleri (Vision Language Model, VLM) için resmi açık kaynak uygulamasıdır
  • Mevcut görsel encoder'lara kıyasla hız ve verimlilik açısından belirgin avantajlar sunar
  • Çeşitli donanımlarda, özellikle Apple Silicon ve mobil ortamlar üzerinde yüksek kullanım değerine sahiptir
  • Farklı boyut ve performans seviyelerindeki ön-eğitimli modeller doğrudan seçilip kullanılabilir
  • Diğer projelere göre daha küçük model boyutuyla optimize edilmiş gerçek zamanlı yanıt ve daha az donanım kaynağı sağlar

Başlıca özellikler

  • FastViTHD, hibrit yapılı yenilikçi bir görsel encoder olarak, çıktı token sayısını azaltıp yüksek çözünürlüklü görüntü kodlama süresini büyük ölçüde kısaltır
  • En küçük FastVLM-0.5B modeli, LLaVA-OneVision-0.5B'ye göre 85 kat daha hızlı TTFT'ye (ilk token üretim süresi) ve 3,4 kat daha küçük encoder boyutuna sahiptir
  • Qwen2-7B LLM ile birleştirilen büyük FastVLM-7B modeli, Cambrian-1-8B gibi güncel SOTA modellerle karşılaştırıldığında 7,9 kat daha hızlı TTFT ve tek görüntü encoder'ıyla üstün performans gösterir
  • Gerçek mobil ortamda (iOS) çalışan bir demo uygulaması da birlikte sunulduğundan teknolojinin pratik kullanımı hemen doğrulanabilir

Model bilgileri (Model Zoo)

  • Farklı boyutlardaki FastVLM modelleri (FastVLM-0.5B, FastVLM-1.5B, FastVLM-7B), 2 aşamalı ve 3 aşamalı sürümler halinde sunuluyor
  • Her model için resmi PyTorch checkpoint dosyaları sağlanıyor
  • Kullanıcılar, resmi olarak sağlanan komutları kullanarak çeşitli modelleri checkpoints dizinine toplu olarak indirebilir

Kullanım örneği (Usage Example)

  • Önceden eğitilmiş PyTorch checkpoint'leri, predict.py betiğiyle kolay ve hızlı biçimde çıkarım testine tabi tutulabilir
  • Örnek komutlarla bir görüntü girip prompt (soru) verildiğinde, ilgili görüntünün açıklaması ya da sorunun yanıtı alınabilir

Apple Silicon ve mobil cihaz desteği

  • Apple Silicon üzerinde çıkarım için ayrı model dışa aktarma ve nicemleme sürecini açıklayan bir kılavuz sunuluyor
  • Apple Silicon için doğrudan optimize edilmiş checkpoint dosyaları resmi olarak dağıtılıyor
  • iPhone, iPad, Mac gibi cihazlarda doğrudan kullanılabilecek uygulama geliştirme kılavuzu ve kaynak kodu /app klasöründe yer alıyor

Ek bilgiler ve açık kaynak duyurusu

  • FastVLM makalesinin resmi arXiv bağlantısı ve CVPR 2025 konferans bildirisi için atıf biçimi sunuluyor
  • Kod tabanı çeşitli açık kaynak projelerine dayanıyor; katkı geçmişi ve lisans bilgileri ayrıca açıklanıyor
  • Model ve kod kullanılmadan önce mutlaka lisansın (lisans dosyası ve model lisansı) kontrol edilmesi gerekiyor

1 yorum

 
GN⁺ 2025-05-14
Hacker News görüşleri
  • 2GB boyutunda 0.5B amiral gemisi model varken, her uygulamanın bunu ayrı ayrı indirmesi bana hiç mantıklı gelmiyor. Apple’ın bu modelleri işletim sistemi seviyesinde önceden yükleyip, tüm uygulamaların bunları yerel olarak çağırabilmesi için bir SDK sunmayı planladığını düşünüyorum. Gerçekten heyecan verici bir dönem. Bunu doğrulamak için bir issue da açtım
    • Açık ağırlıklara dayalı, işletim sistemi tarafından standartlaştırılmış bir foundation model olursa bunun muazzam bir potansiyeli olur diye düşünüyorum. Eğer API, uygulama geliştiricilerinin çalışma anında özelleştirilmiş LoRa fine-tuning’lerini işletim sisteminin standart modeline yüklemesine izin verirse, ideal olarak hem uygulamaya özel model olmanın hem de popüler uygulama boyutlarını korumanın avantajlarıyla foundation modelin avantajlarını aynı anda elde etmek mümkün olabilir
    • f16 hatta int8’e quantize ederek model boyutu daha da küçültülebilir ama asıl nokta senin söylediğin şey. Kullanıcı açısından da tek bir uygulama için 500MB dosya indirmek pek hoş bir deneyim değil
    • Geçen yılki WWDC’de LLM’lerle ilgili de benzer bir şey söylendiğini hatırlıyorum. İşletim sistemi temel modeli sağlayacak, her uygulama da o modeli LORA’larla fine-tune edecek ya da üstüne özel head’ler ekleyebilecekti
    • Bunun büyük bir sunum dışında açıkça dile getirileceğini sanmıyorum. Muhtemelen ancak WWDC gibi bir etkinlikte doğrulanabilir diye tahmin ediyorum
  • time-to-first-token hızını yeterince artırmak, ekranı görüp anında aksiyon alan on-device continuous vision tabanlı asistanlar gibi uygulamalar için bence kritik. Repoda gerçek bir uygulamanın çalıştığını görmek oldukça etkileyiciydi; bu gece kendim derleyip denemeyi düşündükçe heyecanlanıyorum
  • AI/ML topluluğuna daha aktif katkı yapıp ağırlıkları ve model mimarisini de HuggingFace’e yüklemelerini isterdim. Komik olan şu ki bugün benzer bir VLM demosunda ücretsiz bir VLM’in kullanıldığını gördüm. Referans linki: https://github.com/ngxson/smolvlm-realtime-webcam
  • Sen adında gerçek zamanlı ses+görü uygulamasını bizzat geliştiriyorum. Şu anda beta olarak yayında ve kareleri gerçek zamanlı olarak webrtc üzerinden yayınlıyor. Şimdiden hızlı ve akıllı hissettiriyor; bu tür modeller donanıma daha da yakınlaştıkça ne kadar iyi olacağını merak ediyorum. Gelecekte bu modellerin cihaz üzerinde doğal ve hızlı TTFB ile çalışabileceğini düşünüyorum
    • Teknik stack ve kurulumunu anlattığın bir yazı varsa paylaşabilir misin, yoksa kısa bir özet de çok makbule geçer. Çocuklar için, düğmeler ve sesle prompt verip alınan kişisel bir Qwen benzeri bir şey yapmak istiyorum ama şimdilik görsel özelliklere ihtiyacım yok (ileride eklenirse harika olur gerçi). Siri gerçekten hayal kırıklığı yaratıyor. Hâlâ olmasını istediğim seviyede değil
  • Sınırsız kaynak harcamak yerine, kaynakları verimli kullanıp modelleri küçülterek çalıştırmaya yönelik çabaların sürmesi gerçekten çok heyecan verici
  • Robotik alanının geleceğinin giderek daha fazla VLA (vision-language-action) modelleri olduğunu hissediyorum. Tesla FSD de uçtan uca bir VLA modeli ve verimli görsel kodlamanın robotların güvenliği ve tepki kabiliyeti açısından belirleyici olacağını düşünüyorum
  • Optik siniri ağır hasarlı küçük bir çocuğun babası olarak, ne zaman tamamen görmesini kaybedeceğini bilmediğimiz bir durumdaydık; ancak NIH klinik denemelerindeki deneysel bir tedavi sayesinde görme yetisini bir ölçüde koruyabildi (bilime desteğin sürmesi gerektiğini düşünüyorum). Vision-Language Model gelişmeleri sayesinde, eğer çocuğum görmesini kaybederse bile dünyayla iletişim kurabileceği, üniversiteye gidebileceği ve sevdiği bilim ya da mühendislik alanlarında başarılı olabileceği umudunu taşıyorum. Akranlarına göre çok yetenekli ve geleceği konusunda gerçekten umut verici
    • 80’lerde tamamen görme engelli olarak büyümüş biri olarak deneyimimi paylaşmak isterim. O zamanlar teknoloji bugünkü kadar gelişmiş değildi; bilgisayarlarla ancak 12 yaş civarında tanıştım, eski bir daktiloda yazı yazmayı öğrendim ve ağır metal bir braille makinesiyle braille yazmayı öğrendim. O dönemde OCR teknolojisi de pek iyi değildi ve ancak lise çağında braille ekranlı bir dizüstü bilgisayarla dersleri takip edebilir hale geldim. DOS kullanıyordum ve notlarımı Word 5.5 ile alıyordum. Latince öğrenmek için PC Lingua dışında neredeyse hiç ders odaklı araç yoktu. Sonuçta elimde sadece elektronik notlarım ve kendi zihnim vardı ama yine de okulu bitirdim; şimdi de gerçekten tatmin edici bir işim var, kendi evimde yaşıyorum, harika bir kız arkadaşım var ve tamamen bağımsız bir hayat sürüyorum. Hatta sürekli yardım etmeye çalışan annemi bilinçli olarak biraz uzak tutmam gerekmişti. Engelli bireyler arasında, ebeveynlerin aşırı korumacılığının bağımsızlığın önündeki en büyük engellerden biri olduğunu anlatmak için “ebeveyn kaynaklı ek engel” gibi bir ifade kullanılır. Bunu duygusal algılama; lütfen ne anlama geldiğini gerçekten düşün. Çocuğun 18 yaşına geldiğinde yeterince bağımsız olabilir. Bu dönemi ne kadar geciktirirsen, gerçek bağımsızlık o kadar zorlaşır ve kişinin içsel gücünü geliştirme fırsatı o kadar azalır. Teknolojideki ilerlemeler konusunda umutlu olmanı anlıyorum ama çocuğunun potansiyelinin düşündüğünden daha büyük olduğuna inanıyorum. Kendi potansiyelini keşfetmesine imkân verirsen gerçekten şaşırtıcı şeyler olabilir. Ayrıca pahalı cihazlara ya da en yeni araçlara fazla bel bağlamamanı da öneririm. Ben de vision modelleri çok seviyorum ama bugün bile evden çıkarken yanıma sadece bastonumu ve telefonumu alıyorum. Bazen Siri’ye “Ben neredeyim?” diye soruyorum ama sonunda yolumu bulan şey bastonum oluyor. Aslında yeni teknolojilerin çoğu abartılıyor; sıradan işitme ve dokunma duyularıyla bile çok daha fazlası yapılabilir. Ailene ve çocuğunun bundan sonraki gelişimine içtenlikle şans diliyorum
  • Bu teknoloji sayesinde, sadece bir telefon ve gözlüğe takılı bir kamerayla görme engelliler için gerçekten işe yarayan bir yardımcı yapılabileceğini düşünüyorum. Daha önce yanında bir yardımcı olmadan hareket edemeyen kişilerin gündelik yaşamda kendi başlarına hareket edebildiği, daha bağımsız bir yaşam mümkün olabilir
    • Kremalı tavuk ile kremalı mantar çorbasını ayırt etmek için faydalı olabilir ama hareket kabiliyeti açısından, görme engelli kişilerin hâlihazırda kullandığı stratejilere kıyasla pek yardımcı olacağını sanmıyorum. “Burada ağaç var, yine ağaç var, yaya var, yine ağaç var, tabela var” türü geri bildirimlerin gerçek hareketlilikte çok da işe yaramadığını düşünüyorum
  • Bunun llama.cpp içinde dönüştürülüp çalıştırılıp çalıştırılamayacağını merak ediyorum. LLaVA tabanlı olması bu konuda epey umut veriyor