Qwen-Image: Yerel Metin Renderleme Kullanan Görüntü Oluşturma Modeli

(qwenlm.github.io)

1 puan yazan GN⁺ 2025-08-05 | 1 yorum | WhatsApp'ta paylaş

Qwen-Image, yerel metin renderleme ve hassas görüntü düzenleme konusunda güçlü bir 20B parametreli MMDiT görüntü oluşturma modelidir
Alfabe ve Han karakterleri de dahil olmak üzere farklı dillerin karmaşık yazı ifadelerinde yüksek doğruluk ve görsel bütünlük sağlar
Çeşitli açık benchmarklarda (GenEval, DPG, OneIG-Bench vb.) sınıf lideri performans yakalar; metin üretim yeteneği de güçlüdür
Gerçek demoda çok dilli içerikler, poster, PPT, illüstrasyon gibi karmaşık düzenler ve farklı stiller doğru şekilde uygulanır
Stil dönüşümü, nesne ekleme/silme, ayrıntılı betimleme, poz değiştirme gibi düzenleme işlevlerini destekler ve açık kaynak ekosistemini genişletmeyi hedefler

Tanıtım ve Önemli Özellikler

Qwen-Image, karmaşık metin renderleme ve hassas görüntü düzenlemeye odaklanan 20B parametreli MMDiT görüntü oluşturma temel modelidir
En güncel modeli Qwen Chat üzerinden deneyebilirsiniz

Önemli Özellikler

Üstün metin renderleme: çok satırlı düzen, paragraf düzeyinde anlam çıkarımı ve ince ifade yeteneği
- İngilizce ve Han karakterleri gibi alfabetik ve logografik sistemlerin her ikisinde yüksek sadakat sağlar
Tutarlı görüntü düzenleme: geliştirilmiş çoklu görev eğitimle anlam düzeyi doğruluğu ve görsel gerçeklik birlikte korunur
Güçlü benchmark performansı: farklı açık benchmarklarda oluşturma ve düzenleme görevlerinde sınıf lideri performans yakalanır
Metin üretme ve düzenleme alanında LongText-Bench, ChineseWord, TextCraft gibi benchmarklarda üstün sonuçlar elde edilir
Yaratıcılık, tasarım, hikâye anlatımı gibi kullanım alanlarında geniş kapsamda uygulanabilir

Performans ve Benchmarklar

Qwen-Image, GenEval, DPG, OneIG-Bench (genel görüntü üretimi), GEdit, ImgEdit, GSO (düzenleme) gibi benchmarkların tamamında en yeni SOTA(en ileri teknoloji) performans sergiler
Özellikle Çince metin üretimi başta olmak üzere önceki en iyi modeli belirgin biçimde geride bırakır
Geniş genel yetenek ile doğru metin renderlemesini birleştirerek önde gelen bir görüntü üretim modeli konumuna gelir

Demo Örnekleri

Çince Metin İfadesi

Örnek promptlara dayanarak, Miyazaki animasyon stiliyle birlikte gerçekçi biçimde “云存储”“云计算”“云模型” ve özel bir Han karakteri (“千问”) doğru şekilde yansıtılır
Karakterlerin pozu, yüz ifadesi ve sahne derinliği gibi öğeler de doğal şekilde uygulanır

Karmaşık Han Karakteri Paralel İfade

Zarif yazılı örnekler, kaligrafi ve benzeri detaylar son derece hassas şekilde betimlenir
Yazı tipi, düzen ve çizim (ör. 岳阳楼) dahil olmak üzere neredeyse kusursuz ve gerçeğe yakın oluşturulmalar yapılır

İngilizce Metin ve Çok Satır

Kitapçı rafları, yönlendirme metinleri, posterler gibi farklı konumlardaki metinler ayrıntılı şekilde yansıtılır
“New Arrivals This Week”den kitap kapağındaki kısa cümlelere kadar gerçekçi font ve düzenleme ile uygulanır

Karmaşık İngilizce Enfografiği

Her alt modül için simge + başlık + açıklama paragrafı ayrı bir biçimde doğru pozisyonda yerleştirilir
“Habits for Emotional Wellbeing” temalı karmaşık bir infografiğin de doğal bir artwork ile ve dengeli bir kompozisyonla tamamlanabildiği gösterilir

Küçük/Uzun Metin

Görüntünün %10'undan daha küçük bir bölgesine kadar uzun el yazısı metinlerin ayrıntılı olarak uygulanması sağlanır
Çok sayıda cümle, el yazısı, düzen ve satır sonu dahil olmak üzere hassas biçimde yeniden üretilir

Çok Dilli Karışım

İngilizce ve Çince tek bir görüntüde aynı anda el yazısı olarak uygulanır
Prompttaki dil geçişlerine göre metin üretimi doğal biçimde yapılabilir

Poster Oluşturma

Film posteri, alt başlık, oyuncu, yönetmen ve lansman bilgisi gibi metin/ görsel öğelerin her biri; Sci-Fi, grafik tasarım gibi farklı stillerde özgürce birleştirilir

Korece PPT Örneği

En güncel yapay zeka/kurumsal PPT stili (Alibaba logosu, ana başlık, alt başlık, sanat eseri görsel yerleşimi, kaligrafi fontu, ayrıntılı açıklama vb.) tutarlı bir şekilde üretilir

Genel Görüntü Üretimi ve Düzenleme

Foto-gerçekçi, empresyonist, animé, minimal gibi çeşitli sanat stilleri desteklenir ve zengin yaratıcı kullanım imkanı sunulur
Stil dönüşümü, nesne ekleme/silme, detay iyileştirme, metin düzenleme, insan pozu ayarı gibi birçok pratik görüntü düzenleme komutu desteklenir

Sonuç

Qwen-Image, görüntü üretiminin ufkunu genişletmeyi, görsel içerik üretimindeki teknik engelleri düşürmeyi ve yaratıcı kullanımı teşvik etmeyi amaçlar
Topluluk işbirliği, açıklık ve sürdürülebilir üretken yapay zeka ekosistemi kurulmasına odaklanır
Gerçek kullanıcı kullanımı ve geri bildirimini yansıtıp özellikleri geliştirme ve açık ekosistemi genişletme planları vardır

1 yorum

GN⁺ 2025-08-05

Hacker News Yorumu

Bunun bu kadar büyük bir konu haline gelmemesinin nedeni pek anlaşılmıyor —– bu sadece gpt-image-1'i her açıdan geride bırakan ilk açık kaynak model değil, aynı zamanda Flux Kontext'ten düzenleme yeteneği açısından da önde olan bir model. Bu ciddi bir iş.
- Yaklaşık bir saat kadar bu modeli kurcaladım. Genel olarak gerçekten çok iyi, ama yaptığım ilk testlere göre oldukça karmaşık prompt takibinde gpt-image-1'den (veya Imagen 3/4'ten) bariz şekilde daha düşük performans gösteriyor. Başarı oranı yaklaşık ~%50 idi; gpt-image-1 ise ~%75 seviyesindeydi. Labirent, Schrödinger denklemi gibi örnekleri işleyemedi. GenAI Showdown sitesi'nde denedim.
- Sadece bu sayfalarına bakarak emin değilim ama düzenleme modeli henüz resmi olarak yayınlanmış görünmüyor. GitHub issue yorum bağlantısı referans.
- Bu modele göre gpt-image-1'den kesinlikle daha fazla şeyi yapabiliyor. Stil dönüşümü, nesne ekleme/silme, metin düzenleme, insan pozu manipülasyonu kadar, nesne tespiti, anlamsal segmentasyon, derinlik/kenar tahmini, süper çözünürlük ve yeni bakış açısı sentezi (NVS), yani temel görselden yeni bir bakış açısından görüntü oluşturabilme gibi yetenekleri var. Gerçekten bir özellik cümbüşü. İlk sonuçlara bakınca gpt-image-1'in keskinlik ve netlikte biraz daha iyi olduğunu görüyorum. Açıkçası OpenAI'nin yalnızca basit bir unsharp mask ile post-processing yaptırıp yaptırmadığı konusunda şüpheliyim. Odak bulanık bölgelerde bile garip biçimde homojen bir netlik gösteriyor; bazen de aşırı geliyor. Yine de genel olarak bu model de neredeyse aynı seviyede görünüyor. Aslında OpenAI'nin bu yıl sadece kendine has bir görüntü üretim üstünlüğünü koruyacağını düşünüyordum; bu düzeyde olması şaşırtıcı. Ayrıca Flux Kontext'in yayından bu yana sadece 4 gün geçmiş! Eğer bu model gerçekten gpt-image-1 ile benzer kaliteye ulaşıyorsa bu çok büyük bir değişim olur.
- Bildiğim kadarıyla, bunun 40GB VRAM istemesi bile ilgiyi biraz soğutuyor gibi. LLM'lerde çoklu GPU dağıtımı tekniği epey olgunlaşmışken, görüntü modelleri GGUF formatını kullanmalarına rağmen bu tarafta ilerleme neden yavaş bilmiyorum. Görüntü modelleri büyüdükçe dağıtık çalıştırma daha çok devreye girmeyecek mi diye düşünüyorum.
- Daha sadece birkaç saat geçmiş olması ve demoların sürekli hata vermesi nedeniyle insanların yeterince deneme yapabilmesi için biraz daha zaman geçmesi gerek sanırım. Quantize edilmiş GGUF ve çeşitli Comfy iş akışlarının çıkışı da çok kritik olacak bir etken. Çünkü çoğu kullanıcı modeli yerelde çalıştırmak isteyecek. Ancak boyut olarak diğer modellere göre oldukça büyük. İlginçtir, en büyük karşılaştırma Flux değil Alibaba modelleriyle. Örneğin Wan 2.2'nin görsel üretimde zaten çok popüler olması nedeniyle çoğu kişi Qwen-Image'in Wan 2.2'ye göre ne kadar büyük bir sıçrama yaptığını merak ediyor. Yeni bir görüntü modelinin gerçek değerlendirmesi genelde yayınlanmadan sonraki bir hafta kadar iyi olur; o dönemlerde kullanıcılar yoğun test yapar ve üçüncü taraf perspektifinden artılar/eksiler netleşir. Bu modelden de büyük beklenti var.
İyi bir yayın! GenAI Showdown sitesine ekledim. Genel olarak yaklaşık %40 puan alan oldukça iyi bir model ve özellikle tüketici GPU'da çalıştırılabilen bir SOTA model olduğu için öyle (quantize sürümünde daha da). Yine de txt2img promptlarına birebir uymada OpenAI'nin gpt-image-1'inden belirgin şekilde geri kalıyor. Ancak bu başlıkta da belirtildiği gibi bu modelin düzenleme gibi farklı görevleri yapabilmesi güçlü bir avantaj. GenAI Showdown'dan da görebilirsiniz.
- Ayrıca Imagen 3 ve 4 tamamen farklı modeller olduğu için birlikte kıyaslanmaları uygun değil.
Bu işi sık yapıyorsanız normal olabilir ama bunu çalıştırabilecek donanımın ne kadar olması gerektiği de merak ediliyor. Linux'ta 16GB GPU ve 64GB RAM'li bir makinada denedim. Bu bilgisayarda SD sorunsuz çalıştı; Qwen-image'de ise ne GPU'da ne CPU'da bellek yetersizliği hatası alındı. Bu durum çok eksik mi, iki katını eklemek yeter mi, kaç kat daha gerek kalır mı, yoksa gerçekten çılgın bir donanım mı lazım?
- Bunu sık sık yapanlar için doğal olabilir gibi dursa da gerçekte pek doğal değil. VLM/LLM'de VRAM tüketimini hesaplamak neredeyse sihirli bir alandır. Çevrimiçi yaklaşık 10 tane hesaplayıcı var ama doğru çalışan yok. Quantization, KV caching, aktivasyon, layer gibi değişkenler işin içine giriyor. Oldukça can sıkıcı bir alan. Neyse ki bu model için 40GB'ın üzerinde VRAM gerekiyor. Normal sistem RAM'i (Apple Silicon'da birleşik RAM değilse) yetersiz. Hatta Apple Silicon'da bile daha düşük bellek bant genişliği nedeniyle çıkarım hızı GPU/TPU'ya kıyasla çok yavaşlıyor.
- Model dosya büyüklüğüyle neredeyse aynı olmalı. transformers klasöründe yaklaşık 9 adet 5GB dosya var; bu yüzden GPU'da yaklaşık 45GB VRAM gerektiğini düşünün. Genelde kalite kaybını göze alan quantize edilmiş hafif bir sürümün yakında çıkacağı bekleniyor.
- Qwen-Image için tam modelde en az 24GB VRAM gerekiyor. Fakat 4-bit quantize sürüm AutoGPTQ gibi bir kütüphane ile yaklaşık 8GB VRAM'de çalıştırılabiliyor.
- 4-bit quantize sürümün yayınlanması için birkaç gün daha beklemek gerekir gibi görünüyor. Parametre sayısı 20B.
- Üretim çıkarım ortamında 1xH100 ile düzgün çalışıyor.
Diğer görüntü üretim modellerinden farklı olarak, 4o image gen'de olduğu gibi tüm görseli gereksiz yere değiştirmemesi şaşırtıcı. 4o'da yalnızca kıyafetleri düzenlemeye çalışırken yüzün de değişebildiği bir modelden farklı olarak, burada AI'nın yapay izleri sadece düzeltmenin gerektiği kısma bırakılıyor gibi.
- Bu yüzden Flux Kontext o kadar öne çıktı — doğrudan maskeleme gerektirmeden img2img inpainting gücü vermek çok yenilikçiydi. Düzenleme ile ilgili blog
- 4o'da da sadece düzenlenmek istenen alan seçildiğinde kalan kısım aynı kalıyor.
Son dönemde Çinli açık kaynak modelleri inanılmaz hızlı ve iyi çıkıyor. Bu haberleri gördükçe gerçek umut doğuyor.
Bu tür modellerde metin renderı nasıl öğreniliyor, bilen var mı? Kullandığım tüm modellerde (OpenAI, Flux dahil) aynı sorun var: metin doğal değil, görselde gölge ve yansıma ifadesi orijinal imgeye göre yapay duruyor. Sanırım hepsi benzer bir hile kullanıyor.
- Teknik raporun 14. sayfasında açıklanmış. Görselin üstüne metin bindirerek sentetik veri ürettiklerini anlatıyor. Asıl aydınlatma koşulları hesaba katılmadan sadece üstüne yazma ile eğitilmiş gibi. Garbage in, garbage out. Gelecekte daha gerçekçi metin sentezi yöntemi gelip bununla eğitilirse, metni de doğal yapan modelin çıkabileceğini umuyorum.
3.2 bölümündeki Data Filtering kısmını da bakmanızı öneririm. Orijinal makale PDF'si
- İlginç olan, İngilizce ve Çince dışında bahsi geçen veya örneklenen başka bir dilin olmaması.
Bunu doğrudan barındırıp kullanacağınız en düşük ekran kartı tercihi nedir merak ediyorum.
Canvas kısa.
Sansürün ne kadar sert olduğu konusunda merakım var.
- Yeni model çıktığında topluluğun en çok merak ettiği şeylerden biri de bu. Aslında hiçbir organizasyon insan doğasının rahatsız eden taraflarıyla yüzleşmek istemez. Aynı zamanda ABD'de toplumda ve şirketlerde garip bir çekingenlik ve kısıtlı bir austerity gibi bir tavır yaygın.

Qwen-Image: Yerel Metin Renderleme Kullanan Görüntü Oluşturma Modeli

Tanıtım ve Önemli Özellikler

Önemli Özellikler

Performans ve Benchmarklar

Demo Örnekleri

Çince Metin İfadesi

Karmaşık Han Karakteri Paralel İfade

İngilizce Metin ve Çok Satır

Karmaşık İngilizce Enfografiği

Küçük/Uzun Metin

Çok Dilli Karışım

Poster Oluşturma

Korece PPT Örneği

Genel Görüntü Üretimi ve Düzenleme

Sonuç

İlgili okumalar

1 yorum

Hacker News Yorumu