Z-Image - Güçlü ve verimli bir görüntü üretim modeli
(github.com/Tongyi-MAI)- Alibaba’nın, Nano Banana Pro seviyesinde performans sunan görüntü üretim modeli; Apache 2.0 lisanslı açık kaynak
- Single-Stream Diffusion Transformer temelinde geliştirilen, 6B parametreli verimli bir görüntü üretim modeli
- Üç sürümden oluşuyor; Z-Image-Turbo yalnızca 8 adımlık çıkarımla rakip modeller düzeyinde kaliteye ulaşıyor ve 16GB VRAM ortamında da çalışıyor
- Z-Image-Edit, doğal dil komutlarına dayalı görüntü düzenleme özellikleri sunuyor; Z-Image-Base ise topluluğun fine-tuning yapabilmesi için temel model olarak yayımlanacak
- Model, S3-DiT mimarisini benimseyerek metin, görsel ve VAE token’larını tek bir dizide birleştiriyor ve parametre verimliliğini en üst düzeye çıkarıyor
- Decoupled-DMD ve DMDR algoritmaları sayesinde az sayıda adımda da yüksek kaliteli görüntüler üretiyor ve açık kaynak modeller arasında en üst düzey performans sergiliyor
Z-Image genel bakış
- Z-Image, hem verimlilik hem performans sunan bir temel görüntü üretim modeli olup tek akışlı diffusion transformer yapısını kullanıyor
- 6 milyar parametreye dayanıyor ve üç varyant sunuyor: Z-Image-Turbo, Z-Image-Base, Z-Image-Edit
- Z-Image-Turbo: Yalnızca 8 NFE ile yüksek kaliteli görüntüler üretiyor ve H800 GPU üzerinde 1 saniyenin altında çıkarım gecikmesi sağlıyor
- Z-Image-Base: Distillation uygulanmamış temel model; topluluk odaklı fine-tuning ve özel geliştirme desteği sunuyor
- Z-Image-Edit: Görüntü düzenleme için özelleştirilmiş sürüm; doğal dil tabanlı görüntü dönüşümü sunuyor
Başlıca özellikler ve performans
- Z-Image-Turbo, fotoğraf düzeyinde gerçekçi görüntüler ve İngilizce-Çince çift dilli metin render etme konusunda yüksek doğruluk sağlıyor
- Prompt Enhancer özelliğiyle akıl yürütme ve dünya bilgisine dayalı betimleme yeteneği güçlendiriliyor
- Z-Image-Edit, yaratıcı görüntü dönüşümü ve komutları doğru anlama yeteneklerini destekliyor
- Alibaba AI Arena’nın Elo tabanlı insan tercihi değerlendirmesinde açık kaynak modeller arasında en üst düzey performans kaydedildi
Model mimarisi (S3-DiT)
- Scalable Single-Stream DiT(S3-DiT) yapısı benimseniyor
- Metin, görsel semantik token’ları ve görüntü VAE token’ları tek bir dizi hâlinde birleştiriliyor
- Geleneksel çift akışlı yapılara kıyasla parametre verimliliği en üst düzeye çıkarılıyor
- Bu yapı, metin-görüntü birleşik gösterim öğrenimini mümkün kılıyor
Temel algoritmalar
-
Decoupled-DMD
- Decoupled-DMD, Z-Image’ın 8 adımlık çıkarımını mümkün kılan temel distillation algoritmasıdır
- Mevcut DMD(Distribution Matching Distillation), CFG augmentation (CA) ve distribution matching (DM) olmak üzere iki mekanizmaya ayrılıyor
- CA, distillation sürecinin ana motoru olarak görev yapıyor
- DM, çıktı kararlılığı ve kaliteyi korumak için düzenleyici rol üstleniyor
- Bu iki mekanizmanın ayrılıp optimize edilmesiyle az adımda da yüksek performanslı görüntü üretimi elde ediliyor
-
DMDR
- DMDR(Distribution Matching Distillation with Reinforcement Learning), DMD ile reinforcement learning (RL) birleştiren bir son işleme tekniğidir
- RL, DMD performansını en üst düzeye çıkarırken DMD de RL’yi düzenleyen tamamlayıcı bir yapı sunuyor
- Böylece anlamsal uyum, estetik kalite ve yapısal tutarlılık iyileşirken yüksek frekanslı detay ifade gücü de artıyor
Topluluk ve ekosistem desteği
- Cache-DiT: DBCache, Context Parallelism, Tensor Parallelism ile çıkarım hızlandırma desteği
- stable-diffusion.cpp: C++ tabanlı motor sayesinde 4GB VRAM ortamında da Z-Image çalıştırılabiliyor
- LeMiCa: Eğitim gerektirmeden zaman adımı düzeyinde çıkarım hızlandırma sunuyor
- ComfyUI ZImageLatent: Resmî çözünürlük için kolay bir latent arayüzü sunuyor
Özet
- Z-Image, verimli yapı(S3-DiT) ile yenilikçi distillation tekniklerini(Decoupled-DMD, DMDR) birleştiren yüksek performanslı açık kaynak bir görüntü üretim modeli
- Z-Image-Turbo, hızlı çıkarım ile yüksek kaliteyi aynı anda sunuyor ve tüketici sınıfı GPU’larda da çalışabiliyor
- Z-Image-Edit, doğal dil tabanlı hassas görüntü düzenlemeyi destekliyor
- Alibaba AI Arena’da açık kaynak modeller arasında en üst düzey insan tercih puanlarından birini elde etti
- Z-Image ekosistemi, çeşitli topluluk projeleriyle entegre olarak genel amaçlı bir üretim modeli platformuna doğru genişliyor
3 yorum
Yerel görsel üretim uzun zamandır gerçekten
sdxlde takılı kalmıştı ama iyi bir temel model çıkmış gibi görünüyor, bu yüzden umut verici.Her şeyden önce Stable diffusion ünlenince sansür çok arttı ve eğitim yapmayı zorlaştıracak seviyeye gelmişti; bu modelde sansür olmaması da gerçekten çok etkileyici.
Merak ettiğim için çalıştırıp denedim. Sansür olmayınca gerçekten keskin bir bıçağa dönüşebiliyor...
Hacker News görüşleri
Geçen hafta Z-Image Turbo'yu test ettim
gitub) var ve kötü amaçlı bir siteye yönlendiriyor, dikkat etmek gerekiyor6B parametreyle böyle sonuçlar almak şaşırtıcı bir ilerleme
Bu model yakın zamanda Pretrained podcast'inde ele alındı
Resmî demo PDF'ine bakıldığında tek başına kadın görselleri yaklaşık 50 tane, tek başına erkek görselleri ise sadece 2 tane
Bizzat denediğimde sonuç hayal kırıklığı yarattı
Z-Image, Stable Diffusion 1.5'in gerçek halefi olarak değerlendiriliyor
Framework Desktop'ta test ettim; ComfyUI yaklaşık 40. adımda amdgpu kernel hatası verdiği için doğrudan bir geçici çözüm kodu yazdım
16GiB içine bu kadar dünya bilgisi sığması şaşırtıcı
Ama bu model de Çin sansüründen etkileniyor
Yapay zekaya yeni başlayan biri olarak bunun 24GB MacBook'ta çalışıp çalışmayacağını merak ettim
http://localhost:5001/sdui) doğrudan kullanılabiliyor