5 puan yazan GN⁺ 2025-01-28 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Janus-Pro: birleşik çok modlu anlama ve üretim modelinin geliştirilmiş sürümü
  • Mevcut Janus modelini ileri taşıyan bu model, şu iyileştirmeleri içeriyor
    • optimize edilmiş eğitim stratejisi
    • genişletilmiş eğitim verisi
    • daha büyük model ölçeğine genişleme
  • Hedef: çok modlu anlama ve metinden görüntü üretimi performansını artırmak ve üretim kararlılığını güçlendirmek

Başlıca performans artışları

Çok modlu anlama

  • Janus-Pro, çok modlu anlama kıyaslaması MMBench'te 79.2 ile en yüksek skoru elde etti
  • Mevcut modellerden (Janus, TokenFlow, MetaMorph) daha iyi performans gösterdi
  • Görsel kodlamayı ayırarak anlama ile üretim arasındaki çakışmayı azalttı

Metinden görüntü üretimi

  • GenEval kıyaslamasında %80 doğrulukla DALL-E 3 (%67), SD3-Medium (%74) gibi modelleri geride bıraktı
  • DPG-Bench'te 84.19 puan aldı ve diğer tüm modellerden daha iyi performans gösterdi

Model yapısı ve iyileştirmeler

Model mimarisi

  • Görsel kodlama, çok modlu anlama ve üretim için ayrıştırıldı
  • Yüksek boyutlu anlamsal özellikleri çıkaran SigLIP encoder kullanıldı
  • Görüntü decoder'ı, görüntüleri ID'lere dönüştürerek LLM girdisine bağlıyor

Optimize edilmiş eğitim stratejisi

  • Aşamalı eğitim: önceki 3 aşamalı stratejinin verimsizliği iyileştirildi
    • ImageNet verisinde daha uzun eğitim süresi uygulandı (Stage I)
    • Eğitim yalnızca metin-görüntü verisine odaklandı (Stage II)
  • Veri oranı ayarı: metin-görüntü verisinin oranı azaltıldı ve çok modlu anlama performansı güçlendirildi

Veri ve model ölçeklendirme

  • Veri genişletme:
    • çok modlu anlama için 90 milyon örnek eklendi
    • 70 milyon sentetik estetik veriyle metinden görüntü üretimi verisi güçlendirildi
  • Model ölçeklendirme:
    • 1.5B'den 7B ölçeğine çıkılarak eğitim verimliliği ve performans büyük ölçüde iyileştirildi

Deneyler ve değerlendirme

Performans karşılaştırması

  • Janus-Pro-7B, aynı boyuttaki modellerle karşılaştırıldığında en yüksek performansı gösterdi
    • çok modlu anlama ve üretimde TokenFlow-XL (13B) gibi büyük modelleri geride bıraktı
  • Üretilen görüntülerin kararlılığı ve estetik kalitesi de iyileştirildi

Sınırlamalar

  • Düşük çözünürlük (384 × 384), ayrıntılı işler için (OCR vb.) sınırlayıcı
  • Metinden görüntü üretiminde ince detaylar yetersiz kalıyor

Sonuç

  • Janus-Pro, eğitim stratejisi, veri ve model boyutu açısından önemli ilerleme sağladı
  • Hem çok modlu anlama hem de metinden görüntü üretiminde en yüksek performansa ulaştı
  • Gelecekte çözünürlüğü artırarak ayrıntı gerektiren görevleri çözmeyi planlıyor

Henüz yorum yok.

Henüz yorum yok.