10 puan yazan GN⁺ 2026-02-11 | 1 yorum | WhatsApp'ta paylaş
  • Yeni nesil bir görüntü üretim modeli olarak, metin ve görüntü üretimi/düzenlemeyi birleştiren tek bir mimari sunuyor
  • 1k token komutları destekleyerek PPT, poster, çizgi roman gibi karmaşık infografikleri doğrudan üretebiliyor
  • 2K çözünürlük tabanlı ince gerçekçi betimleme ile doğru metin render etme yeteneğini aynı anda sağlıyor
  • Model hafifletme ile çıkarım hızını artırıyor ve hem metinden-görüntüye hem görüntüden-görüntüye benchmark'larda güçlü performans sergiliyor
  • Kesinlik(准), karmaşıklık(多), estetik(美), gerçekçilik(真), hizalama(齐) olmak üzere beş temel özellikle profesyonel görsel içerik üretim verimliliğini en üst düzeye çıkarıyor

Qwen-Image-2.0 genel bakış

  • Qwen-Image-2.0, yeni nesil görüntü üretimi temel modeli olarak metin render etme ve görüntü düzenlemeyi birleştiren tek bir mimari benimsiyor
    • 1k token komutları işleyerek PPT, poster, çizgi roman gibi profesyonel infografikleri doğrudan üretebiliyor
    • 2K çözünürlükle insan, doğa ve mimari gibi ayrıntılı gerçekçi sahneleri ifade ediyor
    • Metin anlama ve üretimi entegrasyonu sayesinde görüntü üretimi ve düzenlemeyi tek modda gerçekleştiriyor
    • Hafifletilmiş model yapısı ile hızlı çıkarım hızı sağlıyor
  • AI Arena kör testlerinde hem metinden-görüntüye hem görüntüden-görüntüye görevlerde üstün performans gösterdi

Modelin gelişim süreci

  • Qwen-Image serisi, üretim hattı ve düzenleme hattını paralel biçimde geliştirdi
    • Ağustos 2025'te Qwen-Image, metin render etme hassasiyetini güçlendirdi
    • Aralık 2025'te Qwen-Image-2512, detay ve fotogerçekçiliği geliştirdi
    • Düzenleme hattında ise tek görüntü düzenleme (Ağustos) → çoklu görüntü düzenleme (Eylül) → tutarlılık iyileştirmesi (Aralık) yönünde genişleme oldu
  • Qwen-Image-2.0, iki hattı tek bir birleşik modelde bir araya getirerek hem üretimde hem düzenlemede üstün sonuçlar elde ediyor

Kesinlik(准) ve karmaşıklık(多)

  • Model, karmaşık “görüntü içinde görüntü” kompozisyonlarını doğru biçimde oluşturarak PPT hazırlama verimliliğini artırıyor
    • Örneğin aynı kişinin iki görüntüsünü üst-alt yerleşimde, görsel tutarlılığı koruyarak üretebiliyor
  • 1k token komutları ile çok katmanlı yapıdaki infografikleri (ör. A/B test raporu) eksiksiz biçimde render ediyor
    • Tablo, grafik, sayısal veri ve notlar gibi birleşik ögeler içeren profesyonel rapor düzeyinde görseller üretmek mümkün
  • LLM'in dünya bilgisini kullanarak basit istekleri otomatik olarak ayrıntılı betimleme prompt'larına genişletebiliyor
    • Örneğin “Hangzhou iki günlük gezi posteri” isteğini ayrıntılı biçim, arka plan ve metin düzenine dönüştürebiliyor

Estetik(美)

  • Metin ve görüntü arasında biçimsel uyum kuruyor
    • Şiir ve resmin birleştiği kompozisyonlardaki Çin geleneksel hat ve resim stilini doğru biçimde yeniden üretebiliyor
    • Çeşitli yazı stillerini (ör. 瘦金体, Sojache) hassas biçimde ifade ediyor
  • Örneğin Song dönemi şiirlerini içeren mürekkep resmi ya da Wang Xizhi'nin 「兰亭序」 eserini Sojache ile neredeyse kusursuz biçimde yeniden üretebiliyor

Gerçekçilik(真)

  • Optik yansımaları, malzemeleri ve perspektiti hassas biçimde işleyerek gerçeklik hissini güçlendiriyor
    • Örneğin cam beyaz tahta, kıyafet ve dergi kapağı gibi farklı yüzeylerdeki metni doğru biçimde render ediyor
  • Film afişi düzeyinde aydınlatma, doku ve malzeme entegrasyonu sunuyor
    • Örneğin 「千灯问心」 afişinde metal, yağmur ve kumaş dokuları doğal biçimde birleşiyor

Hizalama(齐)

  • Takvim, çizgi roman ve infografik gibi çoklu metin yapılarında hizalama ve yerleşimi otomatik olarak ayarlıyor
    • Örneğin Şubat 2026 takviminde tarihleri, ay takvimini ve notları ızgara içinde doğru biçimde hizalıyor
    • Çizgi romandaki konuşma balonu metinlerini ortalayarak doğal bir diyalog akışı kuruyor
    • OKR infografiğinde metin blokları ve okları otomatik hizalama ve renk ayrımıyla düzenliyor

Fotogerçekçiliğin güçlendirilmesi

  • 23'ten fazla yeşil tonu ayırt ederek yaz ormanının ekolojik gerçekçiliğini yansıtıyor
    • Yaprak dokusu, yansıyan ışık, nem ve havadaki parçacıklara kadar ince ayrıntılar betimleniyor
  • İnsan ve hayvan kasları, ifadeleri ve dokuları hassas biçimde yeniden üretiyor
    • Örneğin atın bir insanı ezdiği sahnede kas gerilimi, cilt dokusu ve toz parçacıklarına kadar ifade ediliyor

Görüntü düzenleme yetenekleri

  • Üretim ve düzenlemeyi birleştiren Omni model sayesinde üretim tarafındaki iyileştirmeler düzenlemeye de doğrudan yansıyor
    • Mevcut görüntülerin üzerine şiir ve metin ekleme mümkün
    • İki görüntüdeki kişileri birleştirme ve doğal ışık/gölge uyumunu koruma sağlanabiliyor
    • Gerçek fotoğraflarla çizgi karakterlerin karma düzenlemesi de yapılabiliyor
  • Örneğin iki kişinin birleştirildiği fotoğraflar ya da şehir fotoğrafı üzerine karakter ekleme gibi işlerde doğal bütünleşmiş sonuçlar sunuyor

Blog başlık görseli “Qwen Street”

  • Pekin kış sokak manzarasını arka plan alan görselde, iki dükkân Qwen-Image-2.0'ın temel işlevlerini simgeliyor
    • Soldaki hat dükkânı tabelası: “文字渲染”, içeride “专业幻灯片 中英文海报 高级信息图”
    • Sağdaki çiçekçi tabelası: “真实质感”, kapı üzerindeki işaret: “2k resolution”
    • Ortadaki kardan adamın tuttuğu tahta: “Qwen-Image-2.0 正式发布”
    • Sokakta “更小模型,更快速度” yazılı bir teslimat sürücüsü de yer alıyor

Sonuç

  • Qwen-Image-2.0, kesinlik, karmaşıklık, estetik, gerçekçilik ve hizalamayı bir arada sunan birleşik bir görüntü üretim modeli
  • Metin ile görüntü arasındaki sınırları bulanıklaştırarak profesyonel infografik ve görsel içerik üretiminin otomasyon seviyesini büyük ölçüde artırıyor
  • Araştırma veya yaratıcı çalışmalarda kullanım için Qwen-Image Technical Report (arXiv:2508.02324) kaynağına atıf yapılması öneriliyor

1 yorum

 
GN⁺ 2026-02-11
Hacker News yorumları
  • Birçok kişi “ata binen adam (horse riding man)” örneğinin fazla tuhaf olduğunu söylüyor; arka planını açıklamak istiyorum
    Bu meme, Çinli ünlü sunucu Tsai Kang‑yung (蔡康永)’un bir ödül töreninde sırtına at takılmış bir kostüm giymesi olayından doğdu
    O sırada kendisi, adı ‘Ma Qiren’ (马启仁) olan bir erkekle çıkan bir dedikoduya karışmıştı; bu isim Çince’de ‘ata binen kişi’ (马骑人) ile aynı şekilde telaffuz ediliyordu
    Olay internette yayılıp bir meme haline geldi; bu yüzden “horse riding man” örneği tamamen alakasız değil
    Yine de görselin kendisi hâlâ tekinsiz ve tuhaf bir hava veriyor
    Fotoğraf bağlantısı
    • İlginç bir arka plan. Bu tür prompt’lar aynı zamanda görüntü üreticilerinin latent space’ini sınar
      Normalde bunun tersi, yani ‘bir insanın ata binmesi’ daha kolaydır; ‘atın insana binmesi’ ise daha zor bir embedding’dir
      Çevrilmiş prompt’a bakınca, “at yılının beyaz mühendisi fethetmesi” gibi hicivli bir nüans da vardı
      SD1.5’in bunu nasıl çizeceğini görmek istemiyorum
    • Habere göre gerçek isim 马启仁, yani 马骑人 değil
      Yani isim ‘ata binen insan’ gibi duyuluyor ama birebir çeviri değil
    • Görüntü üretim dünyasında bir de “ata binen astronot (astronaut riding a horse)” problemi var
      İlgili yazı: Horse Rides Astronaut Redux
    • Çin’de de ABD’deki gibi yapay zeka görsel üretimine karşı tepki olup olmadığını merak ediyorum
      Mesela ABD’li şirketler böyle görselleri takvimlerde ya da tanıtım materyallerinde kullanırsa geri tepmeden çekinirmiş gibi geliyor
      Örnek görsel
    • Bir başka etki de DALL‑E 2’nin meşhur sorunu olabilir
      ‘Astronotun ata bindiği’ görseli iyi üretiyordu ama ‘atın astronota bindiği’ görselde sürekli başarısız oluyordu
      Bu sorun en yeni modellerde de sürdü ve Qwen Image ekibi de bu zor benchmarkın farkındaydı muhtemelen
      Sonuçta ‘astronot=insan’, dolayısıyla bu test Çin memesine bağlanıyor
  • Birkaç düşüncemi toparlayayım
    1️⃣ Önceki sürüm desenine bakılırsa 3-4 hafta içinde open-weight gelme ihtimali yüksek
    2️⃣ Z‑Image Turbo(6B), Flux.2 Klein(9B) gibi düşük donanımlı GPU’larda çalışabilen modelleri hedefliyor gibiler
    3️⃣ Görsel üretim ve düzenlemeyi birleştiren tek bir model olduğu için Qwen‑Image ile Qwen‑Edit’i ayrı tutmaya gerek yok
    4️⃣ Benim GenAI Showdown karşılaştırmamda Qwen‑Image, yerel modeller arasında düzenlemede 1 numaraydı; üretim performansı da üst sıralardaydı
    Yerel sürüm çıkarsa siteye eklemeyi planlıyorum
    • Teknik olmayanlar için açıklayayım: quantization iyi yapılırsa LLM’ler parametre başına yaklaşık 1 bayt ile çalıştırılabiliyor
      20B bir model için 20GB RAM yeterli olur ve bu ölçekte iGPU ile de mümkün
      128GB birleşik RAM’li bir kurulum da yaklaşık 2200 dolara yapılabiliyor
      Ayrı bir GPU almaktan çok daha ucuz bir kurulum bu
    • Teknik taraftan bakınca, Qwen 2512 19B parametreye sahipti ve FP16’da 40GB tutuyordu; FP8 ile 3090’a sığıyordu
      Kendi VAE’sini kullanıyordu ama yüksek frekanslı artifact sorunları vardı
      Yeni Qwen 2 ise 7B parametreyle çok daha hafifledi ve Qwen 3 VL’ye yükseltildi
      Artık Image ile Edit’i birleştiren bir Omni modele evrildi
      Z‑Image, Klein ve Qwen aynı anda “SDXL2” koltuğu için yarışıyor
      Open-weight yayınlanırsa gerçekten çok ilginç olacak
  • Kısa bir dönem için Midjourney görsel üretimin zirvesi gibi hissettirmişti
    • Hâlâ öyle değil mi? Tanıdığım birçok üretici, öznel estetik nedeniyle hâlâ Midjourney’yi tercih ediyor
    • Midjourney’ye şimdi ne oldu acaba diye merak ediyorum
    • Görsel üretimdeki ürünleşme hızı aşırı yüksek
      Her 3-4 ayda bir SOTA değişiyor ve geçen çeyreğin yeniliği bir API ürününe dönüşüyor
      Artık darboğaz model değil, prompt’u kullanan kişi
      Kod üretiminde de aynı kalıbı görüyorum
  • “horse riding man” prompt’unun içeriği gerçekten çok çarpıcı
    Issız bozkır, toz, kahverengi bir atın adamı ezdiği sahne gibi son derece gerçekçi tasvirler içeriyor
    Genel olarak ilkel bir gerilim ve biyolojik güçlerin çatışmasını anlatan bir görsel
    • Kafası karışanlar için benzer bir referans olarak Han Hanedanlığı dönemine ait “bir Xiongnu’yu ezen at heykeli” var
      İlgili bağlantı
  • Yakın zamanda Linux’ta LMStudio ile yerel modelleri denedim ve gerçekten çok kolaydı
    Ama görsel üretimi desteklemiyor; bu yüzden Qwen gibi diffusion modelleri Linux’ta çalıştırırken hangi araçların kullanıldığını merak ediyorum
    • Bu model ailesini fiilen kullananların çoğu ComfyUI kullanıyor
      Topluluk quantization, gguf formatına dönüştürme ve hız optimizasyonu gibi işleri de hallediyor
    • Değişim o kadar hızlı ki ben doğrudan Python HTTP sunucusu yazıp JSON arayüzüyle farklı uygulamaları yönlendiriyorum
      Çoğunlukla diffusers kullanıyorum; yavaş olsa da yeni mimari desteği hızlı geliyor
    • ComfyUI, Stable Diffusion için en iyisi
    • Mutlaka denemeni tavsiye ederim. Son dönemde şablon özelliği sayesinde çok daha erişilebilir hale geldi
    • AMD platformundaysan Lemonade, 9.2 sürümünden itibaren görsel üretimini destekliyor
      Site / Sürüm notları
  • Çince dikey yazı düzeni (Vertical Typography) biraz garip duruyordu
    Dikey yazıya uygun noktalama işaretleri (ör. ︒) kullanılması daha doğal olur
  • Her gün üretken yapay zekayla infografik hazırlıyorum ama dürüst olmak gerekirse %99’u berbat
    LinkedIn bu tür görsellerle dolup taşıyor
    • Yine de LinkedIn zaten baştan kötüydü; daha kötü hale gelmiş sayılmaz
    • İnfografik ve sunumlar hâlâ NanoBananaPro’ya özel özellikler
    • İnfografik kalitesi sonuçta hazırlayan kişinin yeteneğine bağlı
      İyi infografik üretebilen ya da neyin iyi olduğunu açıklayabilen insan sayısı çok az
    • GitHub’daki işe yaramaz ASCII diyagramları gibi, bu tür görselleştirmeler sadece bilişsel gürültü
      Başka bir örnek için Gas Town başlığına bakılabilir
  • Ne yazık ki bu kez open-weight yayını olmayacak gibi
    • Yine de yaklaşık bir ay önce de open-weight bir görsel model yayımlamışlardı; bu yüzden bu kez de ihtimal var
      Son yayın 2025’in Aralık ayı civarıydı
  • Onların çizgi roman paneli örneğini beğenip Qwen Chat üzerinden kendim denedim
    Blogdaki prompt’un aynısını kullanınca iyi çalışıyor ama girdiyi biraz değiştirince panel sayısı bozuluyor ya da İngilizce diyaloglar Çince’ye dönüyor
    Yani şimdilik tutarlılığı zayıf bir özellik
  • “Binicilik uygulama görseli” ilginçti
    • Ama demo olarak “atın insanın üstüne çullandığı sahne”yi seçmeleri biraz şaşırtıcıydı
      Yine de tercih meselesi diyelim