Qwen-Image-2.0: Profesyonel düzeyde infografikler, gelişmiş fotogerçekçilik

(qwen.ai)

10 puan yazan GN⁺ 2026-02-11 | 1 yorum | WhatsApp'ta paylaş

Yeni nesil bir görüntü üretim modeli olarak, metin ve görüntü üretimi/düzenlemeyi birleştiren tek bir mimari sunuyor
1k token komutları destekleyerek PPT, poster, çizgi roman gibi karmaşık infografikleri doğrudan üretebiliyor
2K çözünürlük tabanlı ince gerçekçi betimleme ile doğru metin render etme yeteneğini aynı anda sağlıyor
Model hafifletme ile çıkarım hızını artırıyor ve hem metinden-görüntüye hem görüntüden-görüntüye benchmark'larda güçlü performans sergiliyor
Kesinlik(准), karmaşıklık(多), estetik(美), gerçekçilik(真), hizalama(齐) olmak üzere beş temel özellikle profesyonel görsel içerik üretim verimliliğini en üst düzeye çıkarıyor

Qwen-Image-2.0 genel bakış

Qwen-Image-2.0, yeni nesil görüntü üretimi temel modeli olarak metin render etme ve görüntü düzenlemeyi birleştiren tek bir mimari benimsiyor
- 1k token komutları işleyerek PPT, poster, çizgi roman gibi profesyonel infografikleri doğrudan üretebiliyor
- 2K çözünürlükle insan, doğa ve mimari gibi ayrıntılı gerçekçi sahneleri ifade ediyor
- Metin anlama ve üretimi entegrasyonu sayesinde görüntü üretimi ve düzenlemeyi tek modda gerçekleştiriyor
- Hafifletilmiş model yapısı ile hızlı çıkarım hızı sağlıyor
AI Arena kör testlerinde hem metinden-görüntüye hem görüntüden-görüntüye görevlerde üstün performans gösterdi

Modelin gelişim süreci

Qwen-Image serisi, üretim hattı ve düzenleme hattını paralel biçimde geliştirdi
- Ağustos 2025'te Qwen-Image, metin render etme hassasiyetini güçlendirdi
- Aralık 2025'te Qwen-Image-2512, detay ve fotogerçekçiliği geliştirdi
- Düzenleme hattında ise tek görüntü düzenleme (Ağustos) → çoklu görüntü düzenleme (Eylül) → tutarlılık iyileştirmesi (Aralık) yönünde genişleme oldu
Qwen-Image-2.0, iki hattı tek bir birleşik modelde bir araya getirerek hem üretimde hem düzenlemede üstün sonuçlar elde ediyor

Kesinlik(准) ve karmaşıklık(多)

Model, karmaşık “görüntü içinde görüntü” kompozisyonlarını doğru biçimde oluşturarak PPT hazırlama verimliliğini artırıyor
- Örneğin aynı kişinin iki görüntüsünü üst-alt yerleşimde, görsel tutarlılığı koruyarak üretebiliyor
Reklam
1k token komutları ile çok katmanlı yapıdaki infografikleri (ör. A/B test raporu) eksiksiz biçimde render ediyor
- Tablo, grafik, sayısal veri ve notlar gibi birleşik ögeler içeren profesyonel rapor düzeyinde görseller üretmek mümkün
LLM'in dünya bilgisini kullanarak basit istekleri otomatik olarak ayrıntılı betimleme prompt'larına genişletebiliyor
- Örneğin “Hangzhou iki günlük gezi posteri” isteğini ayrıntılı biçim, arka plan ve metin düzenine dönüştürebiliyor

Estetik(美)

Metin ve görüntü arasında biçimsel uyum kuruyor
- Şiir ve resmin birleştiği kompozisyonlardaki Çin geleneksel hat ve resim stilini doğru biçimde yeniden üretebiliyor
- Çeşitli yazı stillerini (ör. 瘦金体, Sojache) hassas biçimde ifade ediyor
Örneğin Song dönemi şiirlerini içeren mürekkep resmi ya da Wang Xizhi'nin 「兰亭序」 eserini Sojache ile neredeyse kusursuz biçimde yeniden üretebiliyor

Gerçekçilik(真)

Optik yansımaları, malzemeleri ve perspektiti hassas biçimde işleyerek gerçeklik hissini güçlendiriyor
- Örneğin cam beyaz tahta, kıyafet ve dergi kapağı gibi farklı yüzeylerdeki metni doğru biçimde render ediyor
Reklam
Film afişi düzeyinde aydınlatma, doku ve malzeme entegrasyonu sunuyor
- Örneğin 「千灯问心」 afişinde metal, yağmur ve kumaş dokuları doğal biçimde birleşiyor

Hizalama(齐)

Takvim, çizgi roman ve infografik gibi çoklu metin yapılarında hizalama ve yerleşimi otomatik olarak ayarlıyor
- Örneğin Şubat 2026 takviminde tarihleri, ay takvimini ve notları ızgara içinde doğru biçimde hizalıyor
- Çizgi romandaki konuşma balonu metinlerini ortalayarak doğal bir diyalog akışı kuruyor
- OKR infografiğinde metin blokları ve okları otomatik hizalama ve renk ayrımıyla düzenliyor

Fotogerçekçiliğin güçlendirilmesi

23'ten fazla yeşil tonu ayırt ederek yaz ormanının ekolojik gerçekçiliğini yansıtıyor
- Yaprak dokusu, yansıyan ışık, nem ve havadaki parçacıklara kadar ince ayrıntılar betimleniyor
İnsan ve hayvan kasları, ifadeleri ve dokuları hassas biçimde yeniden üretiyor
- Örneğin atın bir insanı ezdiği sahnede kas gerilimi, cilt dokusu ve toz parçacıklarına kadar ifade ediliyor
Reklam

Görüntü düzenleme yetenekleri

Üretim ve düzenlemeyi birleştiren Omni model sayesinde üretim tarafındaki iyileştirmeler düzenlemeye de doğrudan yansıyor
- Mevcut görüntülerin üzerine şiir ve metin ekleme mümkün
- İki görüntüdeki kişileri birleştirme ve doğal ışık/gölge uyumunu koruma sağlanabiliyor
- Gerçek fotoğraflarla çizgi karakterlerin karma düzenlemesi de yapılabiliyor
Örneğin iki kişinin birleştirildiği fotoğraflar ya da şehir fotoğrafı üzerine karakter ekleme gibi işlerde doğal bütünleşmiş sonuçlar sunuyor

Blog başlık görseli “Qwen Street”

Pekin kış sokak manzarasını arka plan alan görselde, iki dükkân Qwen-Image-2.0'ın temel işlevlerini simgeliyor
- Soldaki hat dükkânı tabelası: “文字渲染”, içeride “专业幻灯片中英文海报高级信息图”
- Sağdaki çiçekçi tabelası: “真实质感”, kapı üzerindeki işaret: “2k resolution”
- Ortadaki kardan adamın tuttuğu tahta: “Qwen-Image-2.0 正式发布”
- Sokakta “更小模型，更快速度” yazılı bir teslimat sürücüsü de yer alıyor

Sonuç

Qwen-Image-2.0, kesinlik, karmaşıklık, estetik, gerçekçilik ve hizalamayı bir arada sunan birleşik bir görüntü üretim modeli
Metin ile görüntü arasındaki sınırları bulanıklaştırarak profesyonel infografik ve görsel içerik üretiminin otomasyon seviyesini büyük ölçüde artırıyor
Araştırma veya yaratıcı çalışmalarda kullanım için Qwen-Image Technical Report (arXiv:2508.02324) kaynağına atıf yapılması öneriliyor

1 yorum

GN⁺ 2026-02-11

Hacker News yorumları

Birçok kişi “ata binen adam (horse riding man)” örneğinin fazla tuhaf olduğunu söylüyor; arka planını açıklamak istiyorum
Bu meme, Çinli ünlü sunucu Tsai Kang‑yung (蔡康永)’un bir ödül töreninde sırtına at takılmış bir kostüm giymesi olayından doğdu
O sırada kendisi, adı ‘Ma Qiren’ (马启仁) olan bir erkekle çıkan bir dedikoduya karışmıştı; bu isim Çince’de ‘ata binen kişi’ (马骑人) ile aynı şekilde telaffuz ediliyordu
Olay internette yayılıp bir meme haline geldi; bu yüzden “horse riding man” örneği tamamen alakasız değil
Yine de görselin kendisi hâlâ tekinsiz ve tuhaf bir hava veriyor
Fotoğraf bağlantısı
- İlginç bir arka plan. Bu tür prompt’lar aynı zamanda görüntü üreticilerinin latent space’ini sınar
  Normalde bunun tersi, yani ‘bir insanın ata binmesi’ daha kolaydır; ‘atın insana binmesi’ ise daha zor bir embedding’dir
  Çevrilmiş prompt’a bakınca, “at yılının beyaz mühendisi fethetmesi” gibi hicivli bir nüans da vardı
  SD1.5’in bunu nasıl çizeceğini görmek istemiyorum
- Habere göre gerçek isim 马启仁, yani 马骑人 değil
  Yani isim ‘ata binen insan’ gibi duyuluyor ama birebir çeviri değil
- Görüntü üretim dünyasında bir de “ata binen astronot (astronaut riding a horse)” problemi var
  İlgili yazı: Horse Rides Astronaut Redux
- Çin’de de ABD’deki gibi yapay zeka görsel üretimine karşı tepki olup olmadığını merak ediyorum
  Mesela ABD’li şirketler böyle görselleri takvimlerde ya da tanıtım materyallerinde kullanırsa geri tepmeden çekinirmiş gibi geliyor
  Örnek görsel
- Bir başka etki de DALL‑E 2’nin meşhur sorunu olabilir
  ‘Astronotun ata bindiği’ görseli iyi üretiyordu ama ‘atın astronota bindiği’ görselde sürekli başarısız oluyordu
  Bu sorun en yeni modellerde de sürdü ve Qwen Image ekibi de bu zor benchmarkın farkındaydı muhtemelen
  Sonuçta ‘astronot=insan’, dolayısıyla bu test Çin memesine bağlanıyor
Birkaç düşüncemi toparlayayım
1️⃣ Önceki sürüm desenine bakılırsa 3-4 hafta içinde open-weight gelme ihtimali yüksek
2️⃣ Z‑Image Turbo(6B), Flux.2 Klein(9B) gibi düşük donanımlı GPU’larda çalışabilen modelleri hedefliyor gibiler
3️⃣ Görsel üretim ve düzenlemeyi birleştiren tek bir model olduğu için Qwen‑Image ile Qwen‑Edit’i ayrı tutmaya gerek yok
4️⃣ Benim GenAI Showdown karşılaştırmamda Qwen‑Image, yerel modeller arasında düzenlemede 1 numaraydı; üretim performansı da üst sıralardaydı
Yerel sürüm çıkarsa siteye eklemeyi planlıyorum
- Teknik olmayanlar için açıklayayım: quantization iyi yapılırsa LLM’ler parametre başına yaklaşık 1 bayt ile çalıştırılabiliyor
  20B bir model için 20GB RAM yeterli olur ve bu ölçekte iGPU ile de mümkün
  128GB birleşik RAM’li bir kurulum da yaklaşık 2200 dolara yapılabiliyor
  Ayrı bir GPU almaktan çok daha ucuz bir kurulum bu
- Teknik taraftan bakınca, Qwen 2512 19B parametreye sahipti ve FP16’da 40GB tutuyordu; FP8 ile 3090’a sığıyordu
  Kendi VAE’sini kullanıyordu ama yüksek frekanslı artifact sorunları vardı
  Yeni Qwen 2 ise 7B parametreyle çok daha hafifledi ve Qwen 3 VL’ye yükseltildi
  Artık Image ile Edit’i birleştiren bir Omni modele evrildi
  Z‑Image, Klein ve Qwen aynı anda “SDXL2” koltuğu için yarışıyor
  Open-weight yayınlanırsa gerçekten çok ilginç olacak
Kısa bir dönem için Midjourney görsel üretimin zirvesi gibi hissettirmişti
- Hâlâ öyle değil mi? Tanıdığım birçok üretici, öznel estetik nedeniyle hâlâ Midjourney’yi tercih ediyor
- Midjourney’ye şimdi ne oldu acaba diye merak ediyorum
- Görsel üretimdeki ürünleşme hızı aşırı yüksek
  Her 3-4 ayda bir SOTA değişiyor ve geçen çeyreğin yeniliği bir API ürününe dönüşüyor
  Artık darboğaz model değil, prompt’u kullanan kişi
  Kod üretiminde de aynı kalıbı görüyorum
“horse riding man” prompt’unun içeriği gerçekten çok çarpıcı
Issız bozkır, toz, kahverengi bir atın adamı ezdiği sahne gibi son derece gerçekçi tasvirler içeriyor
Genel olarak ilkel bir gerilim ve biyolojik güçlerin çatışmasını anlatan bir görsel
- Kafası karışanlar için benzer bir referans olarak Han Hanedanlığı dönemine ait “bir Xiongnu’yu ezen at heykeli” var
  İlgili bağlantı
Yakın zamanda Linux’ta LMStudio ile yerel modelleri denedim ve gerçekten çok kolaydı
Ama görsel üretimi desteklemiyor; bu yüzden Qwen gibi diffusion modelleri Linux’ta çalıştırırken hangi araçların kullanıldığını merak ediyorum
- Bu model ailesini fiilen kullananların çoğu ComfyUI kullanıyor
  Topluluk quantization, gguf formatına dönüştürme ve hız optimizasyonu gibi işleri de hallediyor
- Değişim o kadar hızlı ki ben doğrudan Python HTTP sunucusu yazıp JSON arayüzüyle farklı uygulamaları yönlendiriyorum
  Çoğunlukla diffusers kullanıyorum; yavaş olsa da yeni mimari desteği hızlı geliyor
- ComfyUI, Stable Diffusion için en iyisi
- Mutlaka denemeni tavsiye ederim. Son dönemde şablon özelliği sayesinde çok daha erişilebilir hale geldi
- AMD platformundaysan Lemonade, 9.2 sürümünden itibaren görsel üretimini destekliyor
  Site / Sürüm notları
Çince dikey yazı düzeni (Vertical Typography) biraz garip duruyordu
Dikey yazıya uygun noktalama işaretleri (ör. ︒) kullanılması daha doğal olur
Her gün üretken yapay zekayla infografik hazırlıyorum ama dürüst olmak gerekirse %99’u berbat
LinkedIn bu tür görsellerle dolup taşıyor
- Yine de LinkedIn zaten baştan kötüydü; daha kötü hale gelmiş sayılmaz
- İnfografik ve sunumlar hâlâ NanoBananaPro’ya özel özellikler
- İnfografik kalitesi sonuçta hazırlayan kişinin yeteneğine bağlı
  İyi infografik üretebilen ya da neyin iyi olduğunu açıklayabilen insan sayısı çok az
- GitHub’daki işe yaramaz ASCII diyagramları gibi, bu tür görselleştirmeler sadece bilişsel gürültü
  Başka bir örnek için Gas Town başlığına bakılabilir
Ne yazık ki bu kez open-weight yayını olmayacak gibi
- Yine de yaklaşık bir ay önce de open-weight bir görsel model yayımlamışlardı; bu yüzden bu kez de ihtimal var
  Son yayın 2025’in Aralık ayı civarıydı
Onların çizgi roman paneli örneğini beğenip Qwen Chat üzerinden kendim denedim
Blogdaki prompt’un aynısını kullanınca iyi çalışıyor ama girdiyi biraz değiştirince panel sayısı bozuluyor ya da İngilizce diyaloglar Çince’ye dönüyor
Yani şimdilik tutarlılığı zayıf bir özellik
“Binicilik uygulama görseli” ilginçti
- Ama demo olarak “atın insanın üstüne çullandığı sahne”yi seçmeleri biraz şaşırtıcıydı
  Yine de tercih meselesi diyelim

Qwen-Image-2.0: Profesyonel düzeyde infografikler, gelişmiş fotogerçekçilik

Qwen-Image-2.0 genel bakış

Modelin gelişim süreci

Kesinlik(准) ve karmaşıklık(多)

Estetik(美)

Gerçekçilik(真)

Hizalama(齐)

Fotogerçekçiliğin güçlendirilmesi

Görüntü düzenleme yetenekleri

Blog başlık görseli “Qwen Street”

Sonuç

İlgili okumalar

1 yorum

Hacker News yorumları