DeepSeek, Text-To-Image üretim modeli Janus Pro'yu yayımladı [PDF]

(github.com/deepseek-ai)

5 puan yazan GN⁺ 2025-01-28 | Henüz yorum yok. | WhatsApp'ta paylaş

Janus-Pro: birleşik çok modlu anlama ve üretim modelinin geliştirilmiş sürümü
Mevcut Janus modelini ileri taşıyan bu model, şu iyileştirmeleri içeriyor
- optimize edilmiş eğitim stratejisi
- genişletilmiş eğitim verisi
- daha büyük model ölçeğine genişleme
Hedef: çok modlu anlama ve metinden görüntü üretimi performansını artırmak ve üretim kararlılığını güçlendirmek

Başlıca performans artışları

Çok modlu anlama

Janus-Pro, çok modlu anlama kıyaslaması MMBench'te 79.2 ile en yüksek skoru elde etti
Mevcut modellerden (Janus, TokenFlow, MetaMorph) daha iyi performans gösterdi
Görsel kodlamayı ayırarak anlama ile üretim arasındaki çakışmayı azalttı

Metinden görüntü üretimi

GenEval kıyaslamasında %80 doğrulukla DALL-E 3 (%67), SD3-Medium (%74) gibi modelleri geride bıraktı
DPG-Bench'te 84.19 puan aldı ve diğer tüm modellerden daha iyi performans gösterdi

Model yapısı ve iyileştirmeler

Model mimarisi

Görsel kodlama, çok modlu anlama ve üretim için ayrıştırıldı
Yüksek boyutlu anlamsal özellikleri çıkaran SigLIP encoder kullanıldı
Görüntü decoder'ı, görüntüleri ID'lere dönüştürerek LLM girdisine bağlıyor

Optimize edilmiş eğitim stratejisi

Aşamalı eğitim: önceki 3 aşamalı stratejinin verimsizliği iyileştirildi
- ImageNet verisinde daha uzun eğitim süresi uygulandı (Stage I)
- Eğitim yalnızca metin-görüntü verisine odaklandı (Stage II)
Veri oranı ayarı: metin-görüntü verisinin oranı azaltıldı ve çok modlu anlama performansı güçlendirildi

Veri ve model ölçeklendirme

Veri genişletme:
- çok modlu anlama için 90 milyon örnek eklendi
- 70 milyon sentetik estetik veriyle metinden görüntü üretimi verisi güçlendirildi
Model ölçeklendirme:
- 1.5B'den 7B ölçeğine çıkılarak eğitim verimliliği ve performans büyük ölçüde iyileştirildi

Deneyler ve değerlendirme

Performans karşılaştırması

Janus-Pro-7B, aynı boyuttaki modellerle karşılaştırıldığında en yüksek performansı gösterdi
- çok modlu anlama ve üretimde TokenFlow-XL (13B) gibi büyük modelleri geride bıraktı
Üretilen görüntülerin kararlılığı ve estetik kalitesi de iyileştirildi

Sınırlamalar

Düşük çözünürlük (384 × 384), ayrıntılı işler için (OCR vb.) sınırlayıcı
Metinden görüntü üretiminde ince detaylar yetersiz kalıyor

Sonuç

Janus-Pro, eğitim stratejisi, veri ve model boyutu açısından önemli ilerleme sağladı
Hem çok modlu anlama hem de metinden görüntü üretiminde en yüksek performansa ulaştı
Gelecekte çözünürlüğü artırarak ayrıntı gerektiren görevleri çözmeyi planlıyor

Henüz yorum yok.

Henüz yorum yok.