1 puan yazan GN⁺ 2025-08-05 | 1 yorum | WhatsApp'ta paylaş
  • Qwen-Image, yerel metin renderleme ve hassas görüntü düzenleme konusunda güçlü bir 20B parametreli MMDiT görüntü oluşturma modelidir
  • Alfabe ve Han karakterleri de dahil olmak üzere farklı dillerin karmaşık yazı ifadelerinde yüksek doğruluk ve görsel bütünlük sağlar
  • Çeşitli açık benchmarklarda (GenEval, DPG, OneIG-Bench vb.) sınıf lideri performans yakalar; metin üretim yeteneği de güçlüdür
  • Gerçek demoda çok dilli içerikler, poster, PPT, illüstrasyon gibi karmaşık düzenler ve farklı stiller doğru şekilde uygulanır
  • Stil dönüşümü, nesne ekleme/silme, ayrıntılı betimleme, poz değiştirme gibi düzenleme işlevlerini destekler ve açık kaynak ekosistemini genişletmeyi hedefler

Tanıtım ve Önemli Özellikler

  • Qwen-Image, karmaşık metin renderleme ve hassas görüntü düzenlemeye odaklanan 20B parametreli MMDiT görüntü oluşturma temel modelidir
  • En güncel modeli Qwen Chat üzerinden deneyebilirsiniz

Önemli Özellikler

  • Üstün metin renderleme: çok satırlı düzen, paragraf düzeyinde anlam çıkarımı ve ince ifade yeteneği
    • İngilizce ve Han karakterleri gibi alfabetik ve logografik sistemlerin her ikisinde yüksek sadakat sağlar
  • Tutarlı görüntü düzenleme: geliştirilmiş çoklu görev eğitimle anlam düzeyi doğruluğu ve görsel gerçeklik birlikte korunur
  • Güçlü benchmark performansı: farklı açık benchmarklarda oluşturma ve düzenleme görevlerinde sınıf lideri performans yakalanır
  • Metin üretme ve düzenleme alanında LongText-Bench, ChineseWord, TextCraft gibi benchmarklarda üstün sonuçlar elde edilir
  • Yaratıcılık, tasarım, hikâye anlatımı gibi kullanım alanlarında geniş kapsamda uygulanabilir

Performans ve Benchmarklar

  • Qwen-Image, GenEval, DPG, OneIG-Bench (genel görüntü üretimi), GEdit, ImgEdit, GSO (düzenleme) gibi benchmarkların tamamında en yeni SOTA(en ileri teknoloji) performans sergiler
  • Özellikle Çince metin üretimi başta olmak üzere önceki en iyi modeli belirgin biçimde geride bırakır
  • Geniş genel yetenek ile doğru metin renderlemesini birleştirerek önde gelen bir görüntü üretim modeli konumuna gelir

Demo Örnekleri

Çince Metin İfadesi

  • Örnek promptlara dayanarak, Miyazaki animasyon stiliyle birlikte gerçekçi biçimde “云存储”“云计算”“云模型” ve özel bir Han karakteri (“千问”) doğru şekilde yansıtılır
  • Karakterlerin pozu, yüz ifadesi ve sahne derinliği gibi öğeler de doğal şekilde uygulanır

Karmaşık Han Karakteri Paralel İfade

  • Zarif yazılı örnekler, kaligrafi ve benzeri detaylar son derece hassas şekilde betimlenir
  • Yazı tipi, düzen ve çizim (ör. 岳阳楼) dahil olmak üzere neredeyse kusursuz ve gerçeğe yakın oluşturulmalar yapılır

İngilizce Metin ve Çok Satır

  • Kitapçı rafları, yönlendirme metinleri, posterler gibi farklı konumlardaki metinler ayrıntılı şekilde yansıtılır
  • “New Arrivals This Week”den kitap kapağındaki kısa cümlelere kadar gerçekçi font ve düzenleme ile uygulanır

Karmaşık İngilizce Enfografiği

  • Her alt modül için simge + başlık + açıklama paragrafı ayrı bir biçimde doğru pozisyonda yerleştirilir
  • “Habits for Emotional Wellbeing” temalı karmaşık bir infografiğin de doğal bir artwork ile ve dengeli bir kompozisyonla tamamlanabildiği gösterilir

Küçük/Uzun Metin

  • Görüntünün %10'undan daha küçük bir bölgesine kadar uzun el yazısı metinlerin ayrıntılı olarak uygulanması sağlanır
  • Çok sayıda cümle, el yazısı, düzen ve satır sonu dahil olmak üzere hassas biçimde yeniden üretilir

Çok Dilli Karışım

  • İngilizce ve Çince tek bir görüntüde aynı anda el yazısı olarak uygulanır
  • Prompttaki dil geçişlerine göre metin üretimi doğal biçimde yapılabilir

Poster Oluşturma

  • Film posteri, alt başlık, oyuncu, yönetmen ve lansman bilgisi gibi metin/ görsel öğelerin her biri; Sci-Fi, grafik tasarım gibi farklı stillerde özgürce birleştirilir

Korece PPT Örneği

  • En güncel yapay zeka/kurumsal PPT stili (Alibaba logosu, ana başlık, alt başlık, sanat eseri görsel yerleşimi, kaligrafi fontu, ayrıntılı açıklama vb.) tutarlı bir şekilde üretilir

Genel Görüntü Üretimi ve Düzenleme

  • Foto-gerçekçi, empresyonist, animé, minimal gibi çeşitli sanat stilleri desteklenir ve zengin yaratıcı kullanım imkanı sunulur
  • Stil dönüşümü, nesne ekleme/silme, detay iyileştirme, metin düzenleme, insan pozu ayarı gibi birçok pratik görüntü düzenleme komutu desteklenir

Sonuç

  • Qwen-Image, görüntü üretiminin ufkunu genişletmeyi, görsel içerik üretimindeki teknik engelleri düşürmeyi ve yaratıcı kullanımı teşvik etmeyi amaçlar
  • Topluluk işbirliği, açıklık ve sürdürülebilir üretken yapay zeka ekosistemi kurulmasına odaklanır
  • Gerçek kullanıcı kullanımı ve geri bildirimini yansıtıp özellikleri geliştirme ve açık ekosistemi genişletme planları vardır

1 yorum

 
GN⁺ 2025-08-05
Hacker News Yorumu
  • Bunun bu kadar büyük bir konu haline gelmemesinin nedeni pek anlaşılmıyor —– bu sadece gpt-image-1'i her açıdan geride bırakan ilk açık kaynak model değil, aynı zamanda Flux Kontext'ten düzenleme yeteneği açısından da önde olan bir model. Bu ciddi bir iş.
    • Yaklaşık bir saat kadar bu modeli kurcaladım. Genel olarak gerçekten çok iyi, ama yaptığım ilk testlere göre oldukça karmaşık prompt takibinde gpt-image-1'den (veya Imagen 3/4'ten) bariz şekilde daha düşük performans gösteriyor. Başarı oranı yaklaşık ~%50 idi; gpt-image-1 ise ~%75 seviyesindeydi. Labirent, Schrödinger denklemi gibi örnekleri işleyemedi. GenAI Showdown sitesi'nde denedim.
    • Sadece bu sayfalarına bakarak emin değilim ama düzenleme modeli henüz resmi olarak yayınlanmış görünmüyor. GitHub issue yorum bağlantısı referans.
    • Bu modele göre gpt-image-1'den kesinlikle daha fazla şeyi yapabiliyor. Stil dönüşümü, nesne ekleme/silme, metin düzenleme, insan pozu manipülasyonu kadar, nesne tespiti, anlamsal segmentasyon, derinlik/kenar tahmini, süper çözünürlük ve yeni bakış açısı sentezi (NVS), yani temel görselden yeni bir bakış açısından görüntü oluşturabilme gibi yetenekleri var. Gerçekten bir özellik cümbüşü. İlk sonuçlara bakınca gpt-image-1'in keskinlik ve netlikte biraz daha iyi olduğunu görüyorum. Açıkçası OpenAI'nin yalnızca basit bir unsharp mask ile post-processing yaptırıp yaptırmadığı konusunda şüpheliyim. Odak bulanık bölgelerde bile garip biçimde homojen bir netlik gösteriyor; bazen de aşırı geliyor. Yine de genel olarak bu model de neredeyse aynı seviyede görünüyor. Aslında OpenAI'nin bu yıl sadece kendine has bir görüntü üretim üstünlüğünü koruyacağını düşünüyordum; bu düzeyde olması şaşırtıcı. Ayrıca Flux Kontext'in yayından bu yana sadece 4 gün geçmiş! Eğer bu model gerçekten gpt-image-1 ile benzer kaliteye ulaşıyorsa bu çok büyük bir değişim olur.
    • Bildiğim kadarıyla, bunun 40GB VRAM istemesi bile ilgiyi biraz soğutuyor gibi. LLM'lerde çoklu GPU dağıtımı tekniği epey olgunlaşmışken, görüntü modelleri GGUF formatını kullanmalarına rağmen bu tarafta ilerleme neden yavaş bilmiyorum. Görüntü modelleri büyüdükçe dağıtık çalıştırma daha çok devreye girmeyecek mi diye düşünüyorum.
    • Daha sadece birkaç saat geçmiş olması ve demoların sürekli hata vermesi nedeniyle insanların yeterince deneme yapabilmesi için biraz daha zaman geçmesi gerek sanırım. Quantize edilmiş GGUF ve çeşitli Comfy iş akışlarının çıkışı da çok kritik olacak bir etken. Çünkü çoğu kullanıcı modeli yerelde çalıştırmak isteyecek. Ancak boyut olarak diğer modellere göre oldukça büyük. İlginçtir, en büyük karşılaştırma Flux değil Alibaba modelleriyle. Örneğin Wan 2.2'nin görsel üretimde zaten çok popüler olması nedeniyle çoğu kişi Qwen-Image'in Wan 2.2'ye göre ne kadar büyük bir sıçrama yaptığını merak ediyor. Yeni bir görüntü modelinin gerçek değerlendirmesi genelde yayınlanmadan sonraki bir hafta kadar iyi olur; o dönemlerde kullanıcılar yoğun test yapar ve üçüncü taraf perspektifinden artılar/eksiler netleşir. Bu modelden de büyük beklenti var.
  • İyi bir yayın! GenAI Showdown sitesine ekledim. Genel olarak yaklaşık %40 puan alan oldukça iyi bir model ve özellikle tüketici GPU'da çalıştırılabilen bir SOTA model olduğu için öyle (quantize sürümünde daha da). Yine de txt2img promptlarına birebir uymada OpenAI'nin gpt-image-1'inden belirgin şekilde geri kalıyor. Ancak bu başlıkta da belirtildiği gibi bu modelin düzenleme gibi farklı görevleri yapabilmesi güçlü bir avantaj. GenAI Showdown'dan da görebilirsiniz.
    • Ayrıca Imagen 3 ve 4 tamamen farklı modeller olduğu için birlikte kıyaslanmaları uygun değil.
  • Bu işi sık yapıyorsanız normal olabilir ama bunu çalıştırabilecek donanımın ne kadar olması gerektiği de merak ediliyor. Linux'ta 16GB GPU ve 64GB RAM'li bir makinada denedim. Bu bilgisayarda SD sorunsuz çalıştı; Qwen-image'de ise ne GPU'da ne CPU'da bellek yetersizliği hatası alındı. Bu durum çok eksik mi, iki katını eklemek yeter mi, kaç kat daha gerek kalır mı, yoksa gerçekten çılgın bir donanım mı lazım?
    • Bunu sık sık yapanlar için doğal olabilir gibi dursa da gerçekte pek doğal değil. VLM/LLM'de VRAM tüketimini hesaplamak neredeyse sihirli bir alandır. Çevrimiçi yaklaşık 10 tane hesaplayıcı var ama doğru çalışan yok. Quantization, KV caching, aktivasyon, layer gibi değişkenler işin içine giriyor. Oldukça can sıkıcı bir alan. Neyse ki bu model için 40GB'ın üzerinde VRAM gerekiyor. Normal sistem RAM'i (Apple Silicon'da birleşik RAM değilse) yetersiz. Hatta Apple Silicon'da bile daha düşük bellek bant genişliği nedeniyle çıkarım hızı GPU/TPU'ya kıyasla çok yavaşlıyor.

    • Model dosya büyüklüğüyle neredeyse aynı olmalı. transformers klasöründe yaklaşık 9 adet 5GB dosya var; bu yüzden GPU'da yaklaşık 45GB VRAM gerektiğini düşünün. Genelde kalite kaybını göze alan quantize edilmiş hafif bir sürümün yakında çıkacağı bekleniyor.
    • Qwen-Image için tam modelde en az 24GB VRAM gerekiyor. Fakat 4-bit quantize sürüm AutoGPTQ gibi bir kütüphane ile yaklaşık 8GB VRAM'de çalıştırılabiliyor.
    • 4-bit quantize sürümün yayınlanması için birkaç gün daha beklemek gerekir gibi görünüyor. Parametre sayısı 20B.
    • Üretim çıkarım ortamında 1xH100 ile düzgün çalışıyor.
  • Diğer görüntü üretim modellerinden farklı olarak, 4o image gen'de olduğu gibi tüm görseli gereksiz yere değiştirmemesi şaşırtıcı. 4o'da yalnızca kıyafetleri düzenlemeye çalışırken yüzün de değişebildiği bir modelden farklı olarak, burada AI'nın yapay izleri sadece düzeltmenin gerektiği kısma bırakılıyor gibi.
    • Bu yüzden Flux Kontext o kadar öne çıktı — doğrudan maskeleme gerektirmeden img2img inpainting gücü vermek çok yenilikçiydi. Düzenleme ile ilgili blog
    • 4o'da da sadece düzenlenmek istenen alan seçildiğinde kalan kısım aynı kalıyor.
  • Son dönemde Çinli açık kaynak modelleri inanılmaz hızlı ve iyi çıkıyor. Bu haberleri gördükçe gerçek umut doğuyor.
  • Bu tür modellerde metin renderı nasıl öğreniliyor, bilen var mı? Kullandığım tüm modellerde (OpenAI, Flux dahil) aynı sorun var: metin doğal değil, görselde gölge ve yansıma ifadesi orijinal imgeye göre yapay duruyor. Sanırım hepsi benzer bir hile kullanıyor.
    • Teknik raporun 14. sayfasında açıklanmış. Görselin üstüne metin bindirerek sentetik veri ürettiklerini anlatıyor. Asıl aydınlatma koşulları hesaba katılmadan sadece üstüne yazma ile eğitilmiş gibi. Garbage in, garbage out. Gelecekte daha gerçekçi metin sentezi yöntemi gelip bununla eğitilirse, metni de doğal yapan modelin çıkabileceğini umuyorum.
  • 3.2 bölümündeki Data Filtering kısmını da bakmanızı öneririm. Orijinal makale PDF'si
    • İlginç olan, İngilizce ve Çince dışında bahsi geçen veya örneklenen başka bir dilin olmaması.
  • Bunu doğrudan barındırıp kullanacağınız en düşük ekran kartı tercihi nedir merak ediyorum.
  • Canvas kısa.
  • Sansürün ne kadar sert olduğu konusunda merakım var.
    • Yeni model çıktığında topluluğun en çok merak ettiği şeylerden biri de bu. Aslında hiçbir organizasyon insan doğasının rahatsız eden taraflarıyla yüzleşmek istemez. Aynı zamanda ABD'de toplumda ve şirketlerde garip bir çekingenlik ve kısıtlı bir austerity gibi bir tavır yaygın.