23 puan yazan GN⁺ 2025-12-08 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Alibaba’nın, Nano Banana Pro seviyesinde performans sunan görüntü üretim modeli; Apache 2.0 lisanslı açık kaynak
  • Single-Stream Diffusion Transformer temelinde geliştirilen, 6B parametreli verimli bir görüntü üretim modeli
  • Üç sürümden oluşuyor; Z-Image-Turbo yalnızca 8 adımlık çıkarımla rakip modeller düzeyinde kaliteye ulaşıyor ve 16GB VRAM ortamında da çalışıyor
  • Z-Image-Edit, doğal dil komutlarına dayalı görüntü düzenleme özellikleri sunuyor; Z-Image-Base ise topluluğun fine-tuning yapabilmesi için temel model olarak yayımlanacak
  • Model, S3-DiT mimarisini benimseyerek metin, görsel ve VAE token’larını tek bir dizide birleştiriyor ve parametre verimliliğini en üst düzeye çıkarıyor
  • Decoupled-DMD ve DMDR algoritmaları sayesinde az sayıda adımda da yüksek kaliteli görüntüler üretiyor ve açık kaynak modeller arasında en üst düzey performans sergiliyor

Z-Image genel bakış

  • Z-Image, hem verimlilik hem performans sunan bir temel görüntü üretim modeli olup tek akışlı diffusion transformer yapısını kullanıyor
  • 6 milyar parametreye dayanıyor ve üç varyant sunuyor: Z-Image-Turbo, Z-Image-Base, Z-Image-Edit
    • Z-Image-Turbo: Yalnızca 8 NFE ile yüksek kaliteli görüntüler üretiyor ve H800 GPU üzerinde 1 saniyenin altında çıkarım gecikmesi sağlıyor
    • Z-Image-Base: Distillation uygulanmamış temel model; topluluk odaklı fine-tuning ve özel geliştirme desteği sunuyor
    • Z-Image-Edit: Görüntü düzenleme için özelleştirilmiş sürüm; doğal dil tabanlı görüntü dönüşümü sunuyor

Başlıca özellikler ve performans

  • Z-Image-Turbo, fotoğraf düzeyinde gerçekçi görüntüler ve İngilizce-Çince çift dilli metin render etme konusunda yüksek doğruluk sağlıyor
  • Prompt Enhancer özelliğiyle akıl yürütme ve dünya bilgisine dayalı betimleme yeteneği güçlendiriliyor
  • Z-Image-Edit, yaratıcı görüntü dönüşümü ve komutları doğru anlama yeteneklerini destekliyor
  • Alibaba AI Arena’nın Elo tabanlı insan tercihi değerlendirmesinde açık kaynak modeller arasında en üst düzey performans kaydedildi

Model mimarisi (S3-DiT)

  • Scalable Single-Stream DiT(S3-DiT) yapısı benimseniyor
    • Metin, görsel semantik token’ları ve görüntü VAE token’ları tek bir dizi hâlinde birleştiriliyor
    • Geleneksel çift akışlı yapılara kıyasla parametre verimliliği en üst düzeye çıkarılıyor
  • Bu yapı, metin-görüntü birleşik gösterim öğrenimini mümkün kılıyor

Temel algoritmalar

  • Decoupled-DMD

    • Decoupled-DMD, Z-Image’ın 8 adımlık çıkarımını mümkün kılan temel distillation algoritmasıdır
    • Mevcut DMD(Distribution Matching Distillation), CFG augmentation (CA) ve distribution matching (DM) olmak üzere iki mekanizmaya ayrılıyor
      • CA, distillation sürecinin ana motoru olarak görev yapıyor
      • DM, çıktı kararlılığı ve kaliteyi korumak için düzenleyici rol üstleniyor
    • Bu iki mekanizmanın ayrılıp optimize edilmesiyle az adımda da yüksek performanslı görüntü üretimi elde ediliyor
  • DMDR

    • DMDR(Distribution Matching Distillation with Reinforcement Learning), DMD ile reinforcement learning (RL) birleştiren bir son işleme tekniğidir
    • RL, DMD performansını en üst düzeye çıkarırken DMD de RL’yi düzenleyen tamamlayıcı bir yapı sunuyor
    • Böylece anlamsal uyum, estetik kalite ve yapısal tutarlılık iyileşirken yüksek frekanslı detay ifade gücü de artıyor

Topluluk ve ekosistem desteği

  • Cache-DiT: DBCache, Context Parallelism, Tensor Parallelism ile çıkarım hızlandırma desteği
  • stable-diffusion.cpp: C++ tabanlı motor sayesinde 4GB VRAM ortamında da Z-Image çalıştırılabiliyor
  • LeMiCa: Eğitim gerektirmeden zaman adımı düzeyinde çıkarım hızlandırma sunuyor
  • ComfyUI ZImageLatent: Resmî çözünürlük için kolay bir latent arayüzü sunuyor

Özet

  • Z-Image, verimli yapı(S3-DiT) ile yenilikçi distillation tekniklerini(Decoupled-DMD, DMDR) birleştiren yüksek performanslı açık kaynak bir görüntü üretim modeli
  • Z-Image-Turbo, hızlı çıkarım ile yüksek kaliteyi aynı anda sunuyor ve tüketici sınıfı GPU’larda da çalışabiliyor
  • Z-Image-Edit, doğal dil tabanlı hassas görüntü düzenlemeyi destekliyor
  • Alibaba AI Arena’da açık kaynak modeller arasında en üst düzey insan tercih puanlarından birini elde etti
  • Z-Image ekosistemi, çeşitli topluluk projeleriyle entegre olarak genel amaçlı bir üretim modeli platformuna doğru genişliyor

Henüz yorum yok.

Henüz yorum yok.