1 puan yazan GN⁺ 2025-08-05 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Qwen-Image, yerel metin renderleme ve hassas görüntü düzenleme konusunda güçlü bir 20B parametreli MMDiT görüntü oluşturma modelidir
  • Alfabe ve Han karakterleri de dahil olmak üzere farklı dillerin karmaşık yazı ifadelerinde yüksek doğruluk ve görsel bütünlük sağlar
  • Çeşitli açık benchmarklarda (GenEval, DPG, OneIG-Bench vb.) sınıf lideri performans yakalar; metin üretim yeteneği de güçlüdür
  • Gerçek demoda çok dilli içerikler, poster, PPT, illüstrasyon gibi karmaşık düzenler ve farklı stiller doğru şekilde uygulanır
  • Stil dönüşümü, nesne ekleme/silme, ayrıntılı betimleme, poz değiştirme gibi düzenleme işlevlerini destekler ve açık kaynak ekosistemini genişletmeyi hedefler

Tanıtım ve Önemli Özellikler

  • Qwen-Image, karmaşık metin renderleme ve hassas görüntü düzenlemeye odaklanan 20B parametreli MMDiT görüntü oluşturma temel modelidir
  • En güncel modeli Qwen Chat üzerinden deneyebilirsiniz

Önemli Özellikler

  • Üstün metin renderleme: çok satırlı düzen, paragraf düzeyinde anlam çıkarımı ve ince ifade yeteneği
    • İngilizce ve Han karakterleri gibi alfabetik ve logografik sistemlerin her ikisinde yüksek sadakat sağlar
  • Tutarlı görüntü düzenleme: geliştirilmiş çoklu görev eğitimle anlam düzeyi doğruluğu ve görsel gerçeklik birlikte korunur
  • Güçlü benchmark performansı: farklı açık benchmarklarda oluşturma ve düzenleme görevlerinde sınıf lideri performans yakalanır
  • Metin üretme ve düzenleme alanında LongText-Bench, ChineseWord, TextCraft gibi benchmarklarda üstün sonuçlar elde edilir
  • Yaratıcılık, tasarım, hikâye anlatımı gibi kullanım alanlarında geniş kapsamda uygulanabilir

Performans ve Benchmarklar

  • Qwen-Image, GenEval, DPG, OneIG-Bench (genel görüntü üretimi), GEdit, ImgEdit, GSO (düzenleme) gibi benchmarkların tamamında en yeni SOTA(en ileri teknoloji) performans sergiler
  • Özellikle Çince metin üretimi başta olmak üzere önceki en iyi modeli belirgin biçimde geride bırakır
  • Geniş genel yetenek ile doğru metin renderlemesini birleştirerek önde gelen bir görüntü üretim modeli konumuna gelir

Demo Örnekleri

Çince Metin İfadesi

  • Örnek promptlara dayanarak, Miyazaki animasyon stiliyle birlikte gerçekçi biçimde “云存储”“云计算”“云模型” ve özel bir Han karakteri (“千问”) doğru şekilde yansıtılır
  • Karakterlerin pozu, yüz ifadesi ve sahne derinliği gibi öğeler de doğal şekilde uygulanır

Karmaşık Han Karakteri Paralel İfade

  • Zarif yazılı örnekler, kaligrafi ve benzeri detaylar son derece hassas şekilde betimlenir
  • Yazı tipi, düzen ve çizim (ör. 岳阳楼) dahil olmak üzere neredeyse kusursuz ve gerçeğe yakın oluşturulmalar yapılır

İngilizce Metin ve Çok Satır

  • Kitapçı rafları, yönlendirme metinleri, posterler gibi farklı konumlardaki metinler ayrıntılı şekilde yansıtılır
  • “New Arrivals This Week”den kitap kapağındaki kısa cümlelere kadar gerçekçi font ve düzenleme ile uygulanır

Karmaşık İngilizce Enfografiği

  • Her alt modül için simge + başlık + açıklama paragrafı ayrı bir biçimde doğru pozisyonda yerleştirilir
  • “Habits for Emotional Wellbeing” temalı karmaşık bir infografiğin de doğal bir artwork ile ve dengeli bir kompozisyonla tamamlanabildiği gösterilir

Küçük/Uzun Metin

  • Görüntünün %10'undan daha küçük bir bölgesine kadar uzun el yazısı metinlerin ayrıntılı olarak uygulanması sağlanır
  • Çok sayıda cümle, el yazısı, düzen ve satır sonu dahil olmak üzere hassas biçimde yeniden üretilir

Çok Dilli Karışım

  • İngilizce ve Çince tek bir görüntüde aynı anda el yazısı olarak uygulanır
  • Prompttaki dil geçişlerine göre metin üretimi doğal biçimde yapılabilir

Poster Oluşturma

  • Film posteri, alt başlık, oyuncu, yönetmen ve lansman bilgisi gibi metin/ görsel öğelerin her biri; Sci-Fi, grafik tasarım gibi farklı stillerde özgürce birleştirilir

Korece PPT Örneği

  • En güncel yapay zeka/kurumsal PPT stili (Alibaba logosu, ana başlık, alt başlık, sanat eseri görsel yerleşimi, kaligrafi fontu, ayrıntılı açıklama vb.) tutarlı bir şekilde üretilir

Genel Görüntü Üretimi ve Düzenleme

  • Foto-gerçekçi, empresyonist, animé, minimal gibi çeşitli sanat stilleri desteklenir ve zengin yaratıcı kullanım imkanı sunulur
  • Stil dönüşümü, nesne ekleme/silme, detay iyileştirme, metin düzenleme, insan pozu ayarı gibi birçok pratik görüntü düzenleme komutu desteklenir

Sonuç

  • Qwen-Image, görüntü üretiminin ufkunu genişletmeyi, görsel içerik üretimindeki teknik engelleri düşürmeyi ve yaratıcı kullanımı teşvik etmeyi amaçlar
  • Topluluk işbirliği, açıklık ve sürdürülebilir üretken yapay zeka ekosistemi kurulmasına odaklanır
  • Gerçek kullanıcı kullanımı ve geri bildirimini yansıtıp özellikleri geliştirme ve açık ekosistemi genişletme planları vardır

Henüz yorum yok.

Henüz yorum yok.