- Yeni nesil bir görüntü üretim modeli olarak, metin ve görüntü üretimi/düzenlemeyi birleştiren tek bir mimari sunuyor
- 1k token komutları destekleyerek PPT, poster, çizgi roman gibi karmaşık infografikleri doğrudan üretebiliyor
- 2K çözünürlük tabanlı ince gerçekçi betimleme ile doğru metin render etme yeteneğini aynı anda sağlıyor
- Model hafifletme ile çıkarım hızını artırıyor ve hem metinden-görüntüye hem görüntüden-görüntüye benchmark'larda güçlü performans sergiliyor
- Kesinlik(准), karmaşıklık(多), estetik(美), gerçekçilik(真), hizalama(齐) olmak üzere beş temel özellikle profesyonel görsel içerik üretim verimliliğini en üst düzeye çıkarıyor
Qwen-Image-2.0 genel bakış
- Qwen-Image-2.0, yeni nesil görüntü üretimi temel modeli olarak metin render etme ve görüntü düzenlemeyi birleştiren tek bir mimari benimsiyor
- 1k token komutları işleyerek PPT, poster, çizgi roman gibi profesyonel infografikleri doğrudan üretebiliyor
- 2K çözünürlükle insan, doğa ve mimari gibi ayrıntılı gerçekçi sahneleri ifade ediyor
- Metin anlama ve üretimi entegrasyonu sayesinde görüntü üretimi ve düzenlemeyi tek modda gerçekleştiriyor
- Hafifletilmiş model yapısı ile hızlı çıkarım hızı sağlıyor
- AI Arena kör testlerinde hem metinden-görüntüye hem görüntüden-görüntüye görevlerde üstün performans gösterdi
Modelin gelişim süreci
- Qwen-Image serisi, üretim hattı ve düzenleme hattını paralel biçimde geliştirdi
- Ağustos 2025'te Qwen-Image, metin render etme hassasiyetini güçlendirdi
- Aralık 2025'te Qwen-Image-2512, detay ve fotogerçekçiliği geliştirdi
- Düzenleme hattında ise tek görüntü düzenleme (Ağustos) → çoklu görüntü düzenleme (Eylül) → tutarlılık iyileştirmesi (Aralık) yönünde genişleme oldu
- Qwen-Image-2.0, iki hattı tek bir birleşik modelde bir araya getirerek hem üretimde hem düzenlemede üstün sonuçlar elde ediyor
Kesinlik(准) ve karmaşıklık(多)
- Model, karmaşık “görüntü içinde görüntü” kompozisyonlarını doğru biçimde oluşturarak PPT hazırlama verimliliğini artırıyor
- Örneğin aynı kişinin iki görüntüsünü üst-alt yerleşimde, görsel tutarlılığı koruyarak üretebiliyor
- 1k token komutları ile çok katmanlı yapıdaki infografikleri (ör. A/B test raporu) eksiksiz biçimde render ediyor
- Tablo, grafik, sayısal veri ve notlar gibi birleşik ögeler içeren profesyonel rapor düzeyinde görseller üretmek mümkün
- LLM'in dünya bilgisini kullanarak basit istekleri otomatik olarak ayrıntılı betimleme prompt'larına genişletebiliyor
- Örneğin “Hangzhou iki günlük gezi posteri” isteğini ayrıntılı biçim, arka plan ve metin düzenine dönüştürebiliyor
Estetik(美)
- Metin ve görüntü arasında biçimsel uyum kuruyor
- Şiir ve resmin birleştiği kompozisyonlardaki Çin geleneksel hat ve resim stilini doğru biçimde yeniden üretebiliyor
- Çeşitli yazı stillerini (ör. 瘦金体, Sojache) hassas biçimde ifade ediyor
- Örneğin Song dönemi şiirlerini içeren mürekkep resmi ya da Wang Xizhi'nin 「兰亭序」 eserini Sojache ile neredeyse kusursuz biçimde yeniden üretebiliyor
Gerçekçilik(真)
- Optik yansımaları, malzemeleri ve perspektiti hassas biçimde işleyerek gerçeklik hissini güçlendiriyor
- Örneğin cam beyaz tahta, kıyafet ve dergi kapağı gibi farklı yüzeylerdeki metni doğru biçimde render ediyor
- Film afişi düzeyinde aydınlatma, doku ve malzeme entegrasyonu sunuyor
- Örneğin 「千灯问心」 afişinde metal, yağmur ve kumaş dokuları doğal biçimde birleşiyor
Hizalama(齐)
- Takvim, çizgi roman ve infografik gibi çoklu metin yapılarında hizalama ve yerleşimi otomatik olarak ayarlıyor
- Örneğin Şubat 2026 takviminde tarihleri, ay takvimini ve notları ızgara içinde doğru biçimde hizalıyor
- Çizgi romandaki konuşma balonu metinlerini ortalayarak doğal bir diyalog akışı kuruyor
- OKR infografiğinde metin blokları ve okları otomatik hizalama ve renk ayrımıyla düzenliyor
Fotogerçekçiliğin güçlendirilmesi
- 23'ten fazla yeşil tonu ayırt ederek yaz ormanının ekolojik gerçekçiliğini yansıtıyor
- Yaprak dokusu, yansıyan ışık, nem ve havadaki parçacıklara kadar ince ayrıntılar betimleniyor
- İnsan ve hayvan kasları, ifadeleri ve dokuları hassas biçimde yeniden üretiyor
- Örneğin atın bir insanı ezdiği sahnede kas gerilimi, cilt dokusu ve toz parçacıklarına kadar ifade ediliyor
Görüntü düzenleme yetenekleri
- Üretim ve düzenlemeyi birleştiren Omni model sayesinde üretim tarafındaki iyileştirmeler düzenlemeye de doğrudan yansıyor
- Mevcut görüntülerin üzerine şiir ve metin ekleme mümkün
- İki görüntüdeki kişileri birleştirme ve doğal ışık/gölge uyumunu koruma sağlanabiliyor
- Gerçek fotoğraflarla çizgi karakterlerin karma düzenlemesi de yapılabiliyor
- Örneğin iki kişinin birleştirildiği fotoğraflar ya da şehir fotoğrafı üzerine karakter ekleme gibi işlerde doğal bütünleşmiş sonuçlar sunuyor
Blog başlık görseli “Qwen Street”
- Pekin kış sokak manzarasını arka plan alan görselde, iki dükkân Qwen-Image-2.0'ın temel işlevlerini simgeliyor
- Soldaki hat dükkânı tabelası: “文字渲染”, içeride “专业幻灯片 中英文海报 高级信息图”
- Sağdaki çiçekçi tabelası: “真实质感”, kapı üzerindeki işaret: “2k resolution”
- Ortadaki kardan adamın tuttuğu tahta: “Qwen-Image-2.0 正式发布”
- Sokakta “更小模型,更快速度” yazılı bir teslimat sürücüsü de yer alıyor
Sonuç
- Qwen-Image-2.0, kesinlik, karmaşıklık, estetik, gerçekçilik ve hizalamayı bir arada sunan birleşik bir görüntü üretim modeli
- Metin ile görüntü arasındaki sınırları bulanıklaştırarak profesyonel infografik ve görsel içerik üretiminin otomasyon seviyesini büyük ölçüde artırıyor
- Araştırma veya yaratıcı çalışmalarda kullanım için Qwen-Image Technical Report (arXiv:2508.02324) kaynağına atıf yapılması öneriliyor
1 yorum
Hacker News yorumları
Bu meme, Çinli ünlü sunucu Tsai Kang‑yung (蔡康永)’un bir ödül töreninde sırtına at takılmış bir kostüm giymesi olayından doğdu
O sırada kendisi, adı ‘Ma Qiren’ (马启仁) olan bir erkekle çıkan bir dedikoduya karışmıştı; bu isim Çince’de ‘ata binen kişi’ (马骑人) ile aynı şekilde telaffuz ediliyordu
Olay internette yayılıp bir meme haline geldi; bu yüzden “horse riding man” örneği tamamen alakasız değil
Yine de görselin kendisi hâlâ tekinsiz ve tuhaf bir hava veriyor
Fotoğraf bağlantısı
Normalde bunun tersi, yani ‘bir insanın ata binmesi’ daha kolaydır; ‘atın insana binmesi’ ise daha zor bir embedding’dir
Çevrilmiş prompt’a bakınca, “at yılının beyaz mühendisi fethetmesi” gibi hicivli bir nüans da vardı
SD1.5’in bunu nasıl çizeceğini görmek istemiyorum
Yani isim ‘ata binen insan’ gibi duyuluyor ama birebir çeviri değil
İlgili yazı: Horse Rides Astronaut Redux
Mesela ABD’li şirketler böyle görselleri takvimlerde ya da tanıtım materyallerinde kullanırsa geri tepmeden çekinirmiş gibi geliyor
Örnek görsel
‘Astronotun ata bindiği’ görseli iyi üretiyordu ama ‘atın astronota bindiği’ görselde sürekli başarısız oluyordu
Bu sorun en yeni modellerde de sürdü ve Qwen Image ekibi de bu zor benchmarkın farkındaydı muhtemelen
Sonuçta ‘astronot=insan’, dolayısıyla bu test Çin memesine bağlanıyor
1️⃣ Önceki sürüm desenine bakılırsa 3-4 hafta içinde open-weight gelme ihtimali yüksek
2️⃣ Z‑Image Turbo(6B), Flux.2 Klein(9B) gibi düşük donanımlı GPU’larda çalışabilen modelleri hedefliyor gibiler
3️⃣ Görsel üretim ve düzenlemeyi birleştiren tek bir model olduğu için Qwen‑Image ile Qwen‑Edit’i ayrı tutmaya gerek yok
4️⃣ Benim GenAI Showdown karşılaştırmamda Qwen‑Image, yerel modeller arasında düzenlemede 1 numaraydı; üretim performansı da üst sıralardaydı
Yerel sürüm çıkarsa siteye eklemeyi planlıyorum
20B bir model için 20GB RAM yeterli olur ve bu ölçekte iGPU ile de mümkün
128GB birleşik RAM’li bir kurulum da yaklaşık 2200 dolara yapılabiliyor
Ayrı bir GPU almaktan çok daha ucuz bir kurulum bu
Kendi VAE’sini kullanıyordu ama yüksek frekanslı artifact sorunları vardı
Yeni Qwen 2 ise 7B parametreyle çok daha hafifledi ve Qwen 3 VL’ye yükseltildi
Artık Image ile Edit’i birleştiren bir Omni modele evrildi
Z‑Image, Klein ve Qwen aynı anda “SDXL2” koltuğu için yarışıyor
Open-weight yayınlanırsa gerçekten çok ilginç olacak
Her 3-4 ayda bir SOTA değişiyor ve geçen çeyreğin yeniliği bir API ürününe dönüşüyor
Artık darboğaz model değil, prompt’u kullanan kişi
Kod üretiminde de aynı kalıbı görüyorum
Issız bozkır, toz, kahverengi bir atın adamı ezdiği sahne gibi son derece gerçekçi tasvirler içeriyor
Genel olarak ilkel bir gerilim ve biyolojik güçlerin çatışmasını anlatan bir görsel
İlgili bağlantı
Ama görsel üretimi desteklemiyor; bu yüzden Qwen gibi diffusion modelleri Linux’ta çalıştırırken hangi araçların kullanıldığını merak ediyorum
Topluluk quantization, gguf formatına dönüştürme ve hız optimizasyonu gibi işleri de hallediyor
Çoğunlukla
diffuserskullanıyorum; yavaş olsa da yeni mimari desteği hızlı geliyorSite / Sürüm notları
Dikey yazıya uygun noktalama işaretleri (ör. ︒) kullanılması daha doğal olur
LinkedIn bu tür görsellerle dolup taşıyor
İyi infografik üretebilen ya da neyin iyi olduğunu açıklayabilen insan sayısı çok az
Başka bir örnek için Gas Town başlığına bakılabilir
Son yayın 2025’in Aralık ayı civarıydı
Blogdaki prompt’un aynısını kullanınca iyi çalışıyor ama girdiyi biraz değiştirince panel sayısı bozuluyor ya da İngilizce diyaloglar Çince’ye dönüyor
Yani şimdilik tutarlılığı zayıf bir özellik
Yine de tercih meselesi diyelim