- Janus-Pro: birleşik çok modlu anlama ve üretim modelinin geliştirilmiş sürümü
- Mevcut Janus modelini ileri taşıyan bu model, şu iyileştirmeleri içeriyor
- optimize edilmiş eğitim stratejisi
- genişletilmiş eğitim verisi
- daha büyük model ölçeğine genişleme
- Hedef: çok modlu anlama ve metinden görüntü üretimi performansını artırmak ve üretim kararlılığını güçlendirmek
Başlıca performans artışları
Çok modlu anlama
- Janus-Pro, çok modlu anlama kıyaslaması MMBench'te 79.2 ile en yüksek skoru elde etti
- Mevcut modellerden (Janus, TokenFlow, MetaMorph) daha iyi performans gösterdi
- Görsel kodlamayı ayırarak anlama ile üretim arasındaki çakışmayı azalttı
Metinden görüntü üretimi
- GenEval kıyaslamasında %80 doğrulukla DALL-E 3 (%67), SD3-Medium (%74) gibi modelleri geride bıraktı
- DPG-Bench'te 84.19 puan aldı ve diğer tüm modellerden daha iyi performans gösterdi
Model yapısı ve iyileştirmeler
Model mimarisi
- Görsel kodlama, çok modlu anlama ve üretim için ayrıştırıldı
- Yüksek boyutlu anlamsal özellikleri çıkaran SigLIP encoder kullanıldı
- Görüntü decoder'ı, görüntüleri ID'lere dönüştürerek LLM girdisine bağlıyor
Optimize edilmiş eğitim stratejisi
- Aşamalı eğitim: önceki 3 aşamalı stratejinin verimsizliği iyileştirildi
- ImageNet verisinde daha uzun eğitim süresi uygulandı (Stage I)
- Eğitim yalnızca metin-görüntü verisine odaklandı (Stage II)
- Veri oranı ayarı: metin-görüntü verisinin oranı azaltıldı ve çok modlu anlama performansı güçlendirildi
Veri ve model ölçeklendirme
- Veri genişletme:
- çok modlu anlama için 90 milyon örnek eklendi
- 70 milyon sentetik estetik veriyle metinden görüntü üretimi verisi güçlendirildi
- Model ölçeklendirme:
- 1.5B'den 7B ölçeğine çıkılarak eğitim verimliliği ve performans büyük ölçüde iyileştirildi
Deneyler ve değerlendirme
Performans karşılaştırması
- Janus-Pro-7B, aynı boyuttaki modellerle karşılaştırıldığında en yüksek performansı gösterdi
- çok modlu anlama ve üretimde TokenFlow-XL (13B) gibi büyük modelleri geride bıraktı
- Üretilen görüntülerin kararlılığı ve estetik kalitesi de iyileştirildi
Sınırlamalar
- Düşük çözünürlük (384 × 384), ayrıntılı işler için (OCR vb.) sınırlayıcı
- Metinden görüntü üretiminde ince detaylar yetersiz kalıyor
Sonuç
- Janus-Pro, eğitim stratejisi, veri ve model boyutu açısından önemli ilerleme sağladı
- Hem çok modlu anlama hem de metinden görüntü üretiminde en yüksek performansa ulaştı
- Gelecekte çözünürlüğü artırarak ayrıntı gerektiren görevleri çözmeyi planlıyor
Henüz yorum yok.