Z-Image - Güçlü ve verimli bir görüntü üretim modeli

(github.com/Tongyi-MAI)

23 puan yazan GN⁺ 2025-12-08 | 3 yorum | WhatsApp'ta paylaş

Alibaba’nın, Nano Banana Pro seviyesinde performans sunan görüntü üretim modeli; Apache 2.0 lisanslı açık kaynak
Single-Stream Diffusion Transformer temelinde geliştirilen, 6B parametreli verimli bir görüntü üretim modeli
Üç sürümden oluşuyor; Z-Image-Turbo yalnızca 8 adımlık çıkarımla rakip modeller düzeyinde kaliteye ulaşıyor ve 16GB VRAM ortamında da çalışıyor
Z-Image-Edit, doğal dil komutlarına dayalı görüntü düzenleme özellikleri sunuyor; Z-Image-Base ise topluluğun fine-tuning yapabilmesi için temel model olarak yayımlanacak
Model, S3-DiT mimarisini benimseyerek metin, görsel ve VAE token’larını tek bir dizide birleştiriyor ve parametre verimliliğini en üst düzeye çıkarıyor
Decoupled-DMD ve DMDR algoritmaları sayesinde az sayıda adımda da yüksek kaliteli görüntüler üretiyor ve açık kaynak modeller arasında en üst düzey performans sergiliyor

Z-Image genel bakış

Z-Image, hem verimlilik hem performans sunan bir temel görüntü üretim modeli olup tek akışlı diffusion transformer yapısını kullanıyor
6 milyar parametreye dayanıyor ve üç varyant sunuyor: Z-Image-Turbo, Z-Image-Base, Z-Image-Edit
- Z-Image-Turbo: Yalnızca 8 NFE ile yüksek kaliteli görüntüler üretiyor ve H800 GPU üzerinde 1 saniyenin altında çıkarım gecikmesi sağlıyor
- Z-Image-Base: Distillation uygulanmamış temel model; topluluk odaklı fine-tuning ve özel geliştirme desteği sunuyor
- Z-Image-Edit: Görüntü düzenleme için özelleştirilmiş sürüm; doğal dil tabanlı görüntü dönüşümü sunuyor

Başlıca özellikler ve performans

Z-Image-Turbo, fotoğraf düzeyinde gerçekçi görüntüler ve İngilizce-Çince çift dilli metin render etme konusunda yüksek doğruluk sağlıyor
Prompt Enhancer özelliğiyle akıl yürütme ve dünya bilgisine dayalı betimleme yeteneği güçlendiriliyor
Z-Image-Edit, yaratıcı görüntü dönüşümü ve komutları doğru anlama yeteneklerini destekliyor
Alibaba AI Arena’nın Elo tabanlı insan tercihi değerlendirmesinde açık kaynak modeller arasında en üst düzey performans kaydedildi

Model mimarisi (S3-DiT)

Scalable Single-Stream DiT(S3-DiT) yapısı benimseniyor
- Metin, görsel semantik token’ları ve görüntü VAE token’ları tek bir dizi hâlinde birleştiriliyor
- Geleneksel çift akışlı yapılara kıyasla parametre verimliliği en üst düzeye çıkarılıyor
Bu yapı, metin-görüntü birleşik gösterim öğrenimini mümkün kılıyor

Temel algoritmalar

Decoupled-DMD
- Decoupled-DMD, Z-Image’ın 8 adımlık çıkarımını mümkün kılan temel distillation algoritmasıdır
- Mevcut DMD(Distribution Matching Distillation), CFG augmentation (CA) ve distribution matching (DM) olmak üzere iki mekanizmaya ayrılıyor
  - CA, distillation sürecinin ana motoru olarak görev yapıyor
  - DM, çıktı kararlılığı ve kaliteyi korumak için düzenleyici rol üstleniyor
- Bu iki mekanizmanın ayrılıp optimize edilmesiyle az adımda da yüksek performanslı görüntü üretimi elde ediliyor
DMDR
- DMDR(Distribution Matching Distillation with Reinforcement Learning), DMD ile reinforcement learning (RL) birleştiren bir son işleme tekniğidir
- RL, DMD performansını en üst düzeye çıkarırken DMD de RL’yi düzenleyen tamamlayıcı bir yapı sunuyor
- Böylece anlamsal uyum, estetik kalite ve yapısal tutarlılık iyileşirken yüksek frekanslı detay ifade gücü de artıyor

Topluluk ve ekosistem desteği

Cache-DiT: DBCache, Context Parallelism, Tensor Parallelism ile çıkarım hızlandırma desteği
stable-diffusion.cpp: C++ tabanlı motor sayesinde 4GB VRAM ortamında da Z-Image çalıştırılabiliyor
LeMiCa: Eğitim gerektirmeden zaman adımı düzeyinde çıkarım hızlandırma sunuyor
ComfyUI ZImageLatent: Resmî çözünürlük için kolay bir latent arayüzü sunuyor

Özet

Z-Image, verimli yapı(S3-DiT) ile yenilikçi distillation tekniklerini(Decoupled-DMD, DMDR) birleştiren yüksek performanslı açık kaynak bir görüntü üretim modeli
Z-Image-Turbo, hızlı çıkarım ile yüksek kaliteyi aynı anda sunuyor ve tüketici sınıfı GPU’larda da çalışabiliyor
Z-Image-Edit, doğal dil tabanlı hassas görüntü düzenlemeyi destekliyor
Alibaba AI Arena’da açık kaynak modeller arasında en üst düzey insan tercih puanlarından birini elde etti
Z-Image ekosistemi, çeşitli topluluk projeleriyle entegre olarak genel amaçlı bir üretim modeli platformuna doğru genişliyor

3 yorum

crawler 2025-12-09

Yerel görsel üretim uzun zamandır gerçekten sdxlde takılı kalmıştı ama iyi bir temel model çıkmış gibi görünüyor, bu yüzden umut verici.
Her şeyden önce Stable diffusion ünlenince sansür çok arttı ve eğitim yapmayı zorlaştıracak seviyeye gelmişti; bu modelde sansür olmaması da gerçekten çok etkileyici.

wedding 2025-12-08

Merak ettiğim için çalıştırıp denedim. Sansür olmayınca gerçekten keskin bir bıçağa dönüşebiliyor...

GN⁺ 2025-12-08

Hacker News görüşleri

Geçen hafta Z-Image Turbo'yu test ettim
- RTX 4090'da yaklaşık 3 saniyede çalışıyor; 1536x1024~2048x2048 çözünürlükte bile görüntü tutarlılığını koruması şaşırtıcı
- 6B parametreli bir model için doğruluğu etkileyici
- Qwen-Image 20b çıktılarında son işlem (refiner) için özellikle etkili. Qwen prompt anlama konusunda çok iyi ama görüntülerde yumuşak bulanıklaşma eğilimi var
- Test örnekleri
- RTX 4090'da 3 saniye sürüyor ama M1 Ultra'da adım başına 8 saniye, varsayılan 9 adımda ise 1 dakikadan uzun sürüyor
- Apple Silicon'un dil dışı modelleri işlemede ne kadar geride kaldığı hissediliyor
- fal.ai üzerinde 1 saniyenin altında üretim yapılabiliyor. LoRA ile birleştirildiğinde 3 saniye içinde kişiselleştirilmiş görseller üretilebiliyor
- seedream, nanobanana gibi modellerle karşılaştırıldığında bile hız ve kalite kombinasyonu bakımından ilk 5'e girecek kadar güçlü
- Ancak testlerde 4 örnekten yalnızca 2'si başarılıydı; örneğin kitkat bar şekil ve logoda tamamen farklı çıktı, DNA armor da sadece metal malzeme gibi göründü
- GitHub bağlantısında yazım hatası (gitub) var ve kötü amaçlı bir siteye yönlendiriyor, dikkat etmek gerekiyor
- Çin fiilen açık ağırlıklı yapay zeka ekosistemini ayakta tutuyor. Gelecekte tüketici GPU pazarı ayakta kalırsa, bu muhtemelen Çin sayesinde olacak
6B parametreyle böyle sonuçlar almak şaşırtıcı bir ilerleme
- Topluluk bu modeli hızla benimsiyor ve Flux(2) neredeyse unutulmuş durumda
- Z-Image sansürsüz bir model olduğu için daha da popüler oluyor. Buna karşılık Flux 2'nin üreticisi BFL, basın bülteninin önemli bir kısmını “güvenlik”e (yani sansüre) ayırdı
- Yine de bu “güvenlik”, modelin kendisinden çok çevrimiçi hizmet politikasına ilişkindi. Pratikte kısıtlama olmadan üretim yapılabiliyor
- “Güvenlik” vurgusu aslında yatırımcılara verilen “biz sizi zor durumda bırakmayız” mesajından ibaret
- “Lobotomizing” ifadesi ilginç. Bunu bir görüntü üretim modeline uygulamak ne anlama geliyor, merak ediyorum
- Ama bu model Çin yapımıysa, Xi Jinping görseli üretemiyor olabilir
Bu model yakın zamanda Pretrained podcast'inde ele alındı
- Metin kodlama ve semantik token'larda mevcut omurgayı yeniden kullanarak verimli bir mimari sunuyor
- Farklı uzunluklarda sentetik başlık verileri ile eğitildiği için metin anlama yeteneği yüksek
- Görsel içindeki OCR metni eğitime dahil edildiği için metin üretim kalitesi artmış. Nano Banana Pro da benzer şekilde gelişti
Resmî demo PDF'ine bakıldığında tek başına kadın görselleri yaklaşık 50 tane, tek başına erkek görselleri ise sadece 2 tane
- Geliştiricilerin düşündüğü hedef pazar oldukça açık
- Gerçekten de civitai gibi sitelere bakıldığında kullanıcı üretimi görsellerin ve LoRA'ların çoğu bu pazarı yansıtıyor
- Bu teknolojiyi sonuçta genç erkek kitlenin arzuları yönlendiriyor
- r/stablediffusion topluluğunun tepkisine bakılırsa Flux 2 fiilen ölmüş gibi. Bilgi birikimi çok daha fazla olsa da Z-Image daha popüler
- İlginç şekilde erkek modellerden biri düzenleme olmadan doğrudan Tony Leung
- Model sansürsüz durumda olduğu için bu pazara daha iyi uyuyor gibi görünüyor
Bizzat denediğimde sonuç hayal kırıklığı yarattı
- Dışarıdan iyi görünüyor ama gerçekte prompt takip performansı zayıftı; “most cultures” gibi ifadeler çizgi film tarzı görsellere dönüştü
Z-Image, Stable Diffusion 1.5'in gerçek halefi olarak değerlendiriliyor
- Kalite, genişletilebilirlik ve yerelde çalıştırılabilirlik artmış; ekosistem de hızla oluşuyor
- Ama SDXL unutuldu mu diye sormak istiyorum. Sonuçta yalnızca iki buçuk yıl önce çıkmıştı
Framework Desktop'ta test ettim; ComfyUI yaklaşık 40. adımda amdgpu kernel hatası verdiği için doğrudan bir geçici çözüm kodu yazdım
- LoRA ile iyi sonuçlar aldım ve sadece 8 adımda (15~20 saniye) bile gayet hoş görünen görseller üretilebiliyor
- kaliteyi artırmak için llama.cpp tabanlı bir prompt güçlendirme düğümü yaptım
16GiB içine bu kadar dünya bilgisi sığması şaşırtıcı
- Henüz erken aşamadayız ama ileride yerel yapay zeka daha kişiselleştirilebilir ve hacklenebilir bir yöne evrilecek
- Geleceğin Nano Banana gibi akıllı modeller etrafında şekilleneceğini düşünüyorum
- Gerçek kullanım için modele doğrudan kontrol katmanları enjekte edilebilmeli
- Bir gün Nano Banana Pro düzeyindeki bir modelin yerelde de çalışacağını umuyorum
Ama bu model de Çin sansüründen etkileniyor
- “Tank Man” ya da “Lady Liberty Hong Kong” istendiğinde yalnızca “Maybe Not Safe” ifadesini veriyor
Yapay zekaya yeni başlayan biri olarak bunun 24GB MacBook'ta çalışıp çalışmayacağını merak ettim
- Gerçekte M5 MacBook Pro'da tek görsel üretimi 399 saniye sürdü ve bu sırada sistem kilitlendi
- replicate.com üzerinde görsel başına 1,5 saniye ve 1000 görsel başına yaklaşık 1 dolar seviyesinde olduğu için çok daha verimli
- Sonuç: Mac'te yerel çalıştırma verimsiz
- Yeni başlayanlar için macOS üzerindeki ComfyUI en kolay seçenek. Z-Image iş akışını içe aktarınca modeli otomatik kurup çalıştırabiliyor
- Linux, Windows ve Mac'te koboldcpp ile çalıştırmanın yolu da var. Yapılandırma dosyasını yükleyip yerel sunucuda (http://localhost:5001/sdui) doğrudan kullanılabiliyor