- Apple'ın CVPR 2025'te sunduğu "FastVLM: Efficient Vision Encoding for Vision Language Models" için resmi repo
- FastViTHD, token sayısını azaltma ve yüksek çözünürlüklü görüntülerin kodlama süresini kısaltma performansı sunuyor
- En küçük model, LLaVA-OneVision-0.5B'ye kıyasla 85 kat daha hızlı sonuçlar ve 3,4 kat daha küçük encoder boyutu sağlıyor
- Büyük model, Cambrian-1-8B'ye kıyasla üstün performans ve 7,9 kat daha yüksek hız sunuyor
- iPhone gibi mobil cihazlarda çalışan demo uygulaması sağlanıyor
FastVLM projesinin önemi ve avantajları
- FastVLM, görsel dil modelleri (Vision Language Model, VLM) için resmi açık kaynak uygulamasıdır
- Mevcut görsel encoder'lara kıyasla hız ve verimlilik açısından belirgin avantajlar sunar
- Çeşitli donanımlarda, özellikle Apple Silicon ve mobil ortamlar üzerinde yüksek kullanım değerine sahiptir
- Farklı boyut ve performans seviyelerindeki ön-eğitimli modeller doğrudan seçilip kullanılabilir
- Diğer projelere göre daha küçük model boyutuyla optimize edilmiş gerçek zamanlı yanıt ve daha az donanım kaynağı sağlar
Başlıca özellikler
- FastViTHD, hibrit yapılı yenilikçi bir görsel encoder olarak, çıktı token sayısını azaltıp yüksek çözünürlüklü görüntü kodlama süresini büyük ölçüde kısaltır
- En küçük FastVLM-0.5B modeli, LLaVA-OneVision-0.5B'ye göre 85 kat daha hızlı TTFT'ye (ilk token üretim süresi) ve 3,4 kat daha küçük encoder boyutuna sahiptir
- Qwen2-7B LLM ile birleştirilen büyük FastVLM-7B modeli, Cambrian-1-8B gibi güncel SOTA modellerle karşılaştırıldığında 7,9 kat daha hızlı TTFT ve tek görüntü encoder'ıyla üstün performans gösterir
- Gerçek mobil ortamda (iOS) çalışan bir demo uygulaması da birlikte sunulduğundan teknolojinin pratik kullanımı hemen doğrulanabilir
Model bilgileri (Model Zoo)
- Farklı boyutlardaki FastVLM modelleri (FastVLM-0.5B, FastVLM-1.5B, FastVLM-7B), 2 aşamalı ve 3 aşamalı sürümler halinde sunuluyor
- Her model için resmi PyTorch checkpoint dosyaları sağlanıyor
- Kullanıcılar, resmi olarak sağlanan komutları kullanarak çeşitli modelleri
checkpoints dizinine toplu olarak indirebilir
Kullanım örneği (Usage Example)
- Önceden eğitilmiş PyTorch checkpoint'leri, predict.py betiğiyle kolay ve hızlı biçimde çıkarım testine tabi tutulabilir
- Örnek komutlarla bir görüntü girip prompt (soru) verildiğinde, ilgili görüntünün açıklaması ya da sorunun yanıtı alınabilir
Apple Silicon ve mobil cihaz desteği
- Apple Silicon üzerinde çıkarım için ayrı model dışa aktarma ve nicemleme sürecini açıklayan bir kılavuz sunuluyor
- Apple Silicon için doğrudan optimize edilmiş checkpoint dosyaları resmi olarak dağıtılıyor
- iPhone, iPad, Mac gibi cihazlarda doğrudan kullanılabilecek uygulama geliştirme kılavuzu ve kaynak kodu
/app klasöründe yer alıyor
Ek bilgiler ve açık kaynak duyurusu
- FastVLM makalesinin resmi arXiv bağlantısı ve CVPR 2025 konferans bildirisi için atıf biçimi sunuluyor
- Kod tabanı çeşitli açık kaynak projelerine dayanıyor; katkı geçmişi ve lisans bilgileri ayrıca açıklanıyor
- Model ve kod kullanılmadan önce mutlaka lisansın (lisans dosyası ve model lisansı) kontrol edilmesi gerekiyor
1 yorum
Hacker News görüşleri