- Qwen-Image, yerel metin renderleme ve hassas görüntü düzenleme konusunda güçlü bir 20B parametreli MMDiT görüntü oluşturma modelidir
- Alfabe ve Han karakterleri de dahil olmak üzere farklı dillerin karmaşık yazı ifadelerinde yüksek doğruluk ve görsel bütünlük sağlar
- Çeşitli açık benchmarklarda (GenEval, DPG, OneIG-Bench vb.) sınıf lideri performans yakalar; metin üretim yeteneği de güçlüdür
- Gerçek demoda çok dilli içerikler, poster, PPT, illüstrasyon gibi karmaşık düzenler ve farklı stiller doğru şekilde uygulanır
- Stil dönüşümü, nesne ekleme/silme, ayrıntılı betimleme, poz değiştirme gibi düzenleme işlevlerini destekler ve açık kaynak ekosistemini genişletmeyi hedefler
Tanıtım ve Önemli Özellikler
- Qwen-Image, karmaşık metin renderleme ve hassas görüntü düzenlemeye odaklanan 20B parametreli MMDiT görüntü oluşturma temel modelidir
- En güncel modeli Qwen Chat üzerinden deneyebilirsiniz
Önemli Özellikler
- Üstün metin renderleme: çok satırlı düzen, paragraf düzeyinde anlam çıkarımı ve ince ifade yeteneği
- İngilizce ve Han karakterleri gibi alfabetik ve logografik sistemlerin her ikisinde yüksek sadakat sağlar
- Tutarlı görüntü düzenleme: geliştirilmiş çoklu görev eğitimle anlam düzeyi doğruluğu ve görsel gerçeklik birlikte korunur
- Güçlü benchmark performansı: farklı açık benchmarklarda oluşturma ve düzenleme görevlerinde sınıf lideri performans yakalanır
- Metin üretme ve düzenleme alanında LongText-Bench, ChineseWord, TextCraft gibi benchmarklarda üstün sonuçlar elde edilir
- Yaratıcılık, tasarım, hikâye anlatımı gibi kullanım alanlarında geniş kapsamda uygulanabilir
Performans ve Benchmarklar
- Qwen-Image, GenEval, DPG, OneIG-Bench (genel görüntü üretimi), GEdit, ImgEdit, GSO (düzenleme) gibi benchmarkların tamamında en yeni SOTA(en ileri teknoloji) performans sergiler
- Özellikle Çince metin üretimi başta olmak üzere önceki en iyi modeli belirgin biçimde geride bırakır
- Geniş genel yetenek ile doğru metin renderlemesini birleştirerek önde gelen bir görüntü üretim modeli konumuna gelir
Demo Örnekleri
Çince Metin İfadesi
- Örnek promptlara dayanarak, Miyazaki animasyon stiliyle birlikte gerçekçi biçimde “云存储”“云计算”“云模型” ve özel bir Han karakteri (“千问”) doğru şekilde yansıtılır
- Karakterlerin pozu, yüz ifadesi ve sahne derinliği gibi öğeler de doğal şekilde uygulanır
Karmaşık Han Karakteri Paralel İfade
- Zarif yazılı örnekler, kaligrafi ve benzeri detaylar son derece hassas şekilde betimlenir
- Yazı tipi, düzen ve çizim (ör. 岳阳楼) dahil olmak üzere neredeyse kusursuz ve gerçeğe yakın oluşturulmalar yapılır
İngilizce Metin ve Çok Satır
- Kitapçı rafları, yönlendirme metinleri, posterler gibi farklı konumlardaki metinler ayrıntılı şekilde yansıtılır
- “New Arrivals This Week”den kitap kapağındaki kısa cümlelere kadar gerçekçi font ve düzenleme ile uygulanır
Karmaşık İngilizce Enfografiği
- Her alt modül için simge + başlık + açıklama paragrafı ayrı bir biçimde doğru pozisyonda yerleştirilir
- “Habits for Emotional Wellbeing” temalı karmaşık bir infografiğin de doğal bir artwork ile ve dengeli bir kompozisyonla tamamlanabildiği gösterilir
Küçük/Uzun Metin
- Görüntünün %10'undan daha küçük bir bölgesine kadar uzun el yazısı metinlerin ayrıntılı olarak uygulanması sağlanır
- Çok sayıda cümle, el yazısı, düzen ve satır sonu dahil olmak üzere hassas biçimde yeniden üretilir
Çok Dilli Karışım
- İngilizce ve Çince tek bir görüntüde aynı anda el yazısı olarak uygulanır
- Prompttaki dil geçişlerine göre metin üretimi doğal biçimde yapılabilir
Poster Oluşturma
- Film posteri, alt başlık, oyuncu, yönetmen ve lansman bilgisi gibi metin/ görsel öğelerin her biri; Sci-Fi, grafik tasarım gibi farklı stillerde özgürce birleştirilir
Korece PPT Örneği
- En güncel yapay zeka/kurumsal PPT stili (Alibaba logosu, ana başlık, alt başlık, sanat eseri görsel yerleşimi, kaligrafi fontu, ayrıntılı açıklama vb.) tutarlı bir şekilde üretilir
Genel Görüntü Üretimi ve Düzenleme
- Foto-gerçekçi, empresyonist, animé, minimal gibi çeşitli sanat stilleri desteklenir ve zengin yaratıcı kullanım imkanı sunulur
- Stil dönüşümü, nesne ekleme/silme, detay iyileştirme, metin düzenleme, insan pozu ayarı gibi birçok pratik görüntü düzenleme komutu desteklenir
Sonuç
- Qwen-Image, görüntü üretiminin ufkunu genişletmeyi, görsel içerik üretimindeki teknik engelleri düşürmeyi ve yaratıcı kullanımı teşvik etmeyi amaçlar
- Topluluk işbirliği, açıklık ve sürdürülebilir üretken yapay zeka ekosistemi kurulmasına odaklanır
- Gerçek kullanıcı kullanımı ve geri bildirimini yansıtıp özellikleri geliştirme ve açık ekosistemi genişletme planları vardır
Henüz yorum yok.