- Alibaba’nın, Nano Banana Pro seviyesinde performans sunan görüntü üretim modeli; Apache 2.0 lisanslı açık kaynak
- Single-Stream Diffusion Transformer temelinde geliştirilen, 6B parametreli verimli bir görüntü üretim modeli
- Üç sürümden oluşuyor; Z-Image-Turbo yalnızca 8 adımlık çıkarımla rakip modeller düzeyinde kaliteye ulaşıyor ve 16GB VRAM ortamında da çalışıyor
- Z-Image-Edit, doğal dil komutlarına dayalı görüntü düzenleme özellikleri sunuyor; Z-Image-Base ise topluluğun fine-tuning yapabilmesi için temel model olarak yayımlanacak
- Model, S3-DiT mimarisini benimseyerek metin, görsel ve VAE token’larını tek bir dizide birleştiriyor ve parametre verimliliğini en üst düzeye çıkarıyor
- Decoupled-DMD ve DMDR algoritmaları sayesinde az sayıda adımda da yüksek kaliteli görüntüler üretiyor ve açık kaynak modeller arasında en üst düzey performans sergiliyor
Z-Image genel bakış
- Z-Image, hem verimlilik hem performans sunan bir temel görüntü üretim modeli olup tek akışlı diffusion transformer yapısını kullanıyor
- 6 milyar parametreye dayanıyor ve üç varyant sunuyor: Z-Image-Turbo, Z-Image-Base, Z-Image-Edit
- Z-Image-Turbo: Yalnızca 8 NFE ile yüksek kaliteli görüntüler üretiyor ve H800 GPU üzerinde 1 saniyenin altında çıkarım gecikmesi sağlıyor
- Z-Image-Base: Distillation uygulanmamış temel model; topluluk odaklı fine-tuning ve özel geliştirme desteği sunuyor
- Z-Image-Edit: Görüntü düzenleme için özelleştirilmiş sürüm; doğal dil tabanlı görüntü dönüşümü sunuyor
Başlıca özellikler ve performans
- Z-Image-Turbo, fotoğraf düzeyinde gerçekçi görüntüler ve İngilizce-Çince çift dilli metin render etme konusunda yüksek doğruluk sağlıyor
- Prompt Enhancer özelliğiyle akıl yürütme ve dünya bilgisine dayalı betimleme yeteneği güçlendiriliyor
- Z-Image-Edit, yaratıcı görüntü dönüşümü ve komutları doğru anlama yeteneklerini destekliyor
- Alibaba AI Arena’nın Elo tabanlı insan tercihi değerlendirmesinde açık kaynak modeller arasında en üst düzey performans kaydedildi
Model mimarisi (S3-DiT)
- Scalable Single-Stream DiT(S3-DiT) yapısı benimseniyor
- Metin, görsel semantik token’ları ve görüntü VAE token’ları tek bir dizi hâlinde birleştiriliyor
- Geleneksel çift akışlı yapılara kıyasla parametre verimliliği en üst düzeye çıkarılıyor
- Bu yapı, metin-görüntü birleşik gösterim öğrenimini mümkün kılıyor
Temel algoritmalar
-
Decoupled-DMD
- Decoupled-DMD, Z-Image’ın 8 adımlık çıkarımını mümkün kılan temel distillation algoritmasıdır
- Mevcut DMD(Distribution Matching Distillation), CFG augmentation (CA) ve distribution matching (DM) olmak üzere iki mekanizmaya ayrılıyor
- CA, distillation sürecinin ana motoru olarak görev yapıyor
- DM, çıktı kararlılığı ve kaliteyi korumak için düzenleyici rol üstleniyor
- Bu iki mekanizmanın ayrılıp optimize edilmesiyle az adımda da yüksek performanslı görüntü üretimi elde ediliyor
-
DMDR
- DMDR(Distribution Matching Distillation with Reinforcement Learning), DMD ile reinforcement learning (RL) birleştiren bir son işleme tekniğidir
- RL, DMD performansını en üst düzeye çıkarırken DMD de RL’yi düzenleyen tamamlayıcı bir yapı sunuyor
- Böylece anlamsal uyum, estetik kalite ve yapısal tutarlılık iyileşirken yüksek frekanslı detay ifade gücü de artıyor
Topluluk ve ekosistem desteği
- Cache-DiT: DBCache, Context Parallelism, Tensor Parallelism ile çıkarım hızlandırma desteği
- stable-diffusion.cpp: C++ tabanlı motor sayesinde 4GB VRAM ortamında da Z-Image çalıştırılabiliyor
- LeMiCa: Eğitim gerektirmeden zaman adımı düzeyinde çıkarım hızlandırma sunuyor
- ComfyUI ZImageLatent: Resmî çözünürlük için kolay bir latent arayüzü sunuyor
Özet
- Z-Image, verimli yapı(S3-DiT) ile yenilikçi distillation tekniklerini(Decoupled-DMD, DMDR) birleştiren yüksek performanslı açık kaynak bir görüntü üretim modeli
- Z-Image-Turbo, hızlı çıkarım ile yüksek kaliteyi aynı anda sunuyor ve tüketici sınıfı GPU’larda da çalışabiliyor
- Z-Image-Edit, doğal dil tabanlı hassas görüntü düzenlemeyi destekliyor
- Alibaba AI Arena’da açık kaynak modeller arasında en üst düzey insan tercih puanlarından birini elde etti
- Z-Image ekosistemi, çeşitli topluluk projeleriyle entegre olarak genel amaçlı bir üretim modeli platformuna doğru genişliyor
Henüz yorum yok.