- Qwen-Image-Edit, Qwen-Image modeli temel alınarak geliştirilen, görüntü düzenlemeye özel bir genişletilmiş modeldir
- Giriş görüntüsünü aynı anda Qwen2.5-VL ve VAE Encoder'a göndererek hem semantik hem de görünüş düzenlemeyi destekleyen bir yapıya sahiptir
- Metin düzenleme yeteneği güçlüdür; Çince ve İngilizcede yazı tipini, boyutu ve stili koruyarak doğrudan düzenleme yapılabilir
- Çeşitli benchmark'larda en ileri düzey (SOTA) performans elde ederek görüntü düzenleme için güçlü bir temel model haline gelmiştir
- Açık kaynak Apache 2.0 lisansıyla yayımlanmıştır; geliştiriciler ve araştırmacılar tarafından özgürce kullanılabilir
Giriş
- Qwen-Image-Edit, Qwen-Image'in metin işleme yeteneğini genişleterek görüntü düzenlemeyi destekleyen bir modeldir
- Görüntü girdisini aynı anda semantik kontrol için (Qwen2.5-VL) ve görünüş kontrolü için (VAE Encoder) ileten bir mimariye sahiptir
- Hem hassas metin düzenlemeyi hem de semantik ve görünüş düzenlemeyi destekleme özelliğine sahiptir
Başlıca özellikler
- Semantik & görünüş düzenleme: Nesne ekleme, silme, döndürme, stil dönüşümü gibi semantik değişiklikleri ve yalnızca belirli alanları değiştiren görünüş düzenlemelerini destekler
- Hassas metin düzenleme: İngilizce ve Çince metinler doğrudan düzenlenebilir ve özgün yazı tipi ile stil korunur
- Performans üstünlüğü: Birden çok herkese açık benchmark'ta en ileri düzey performans elde eder
Hızlı başlangıç
- Hugging Face
diffusers kütüphanesi üzerinden kullanılabilir
- Örnek kodda tavşanın rengi mora çevrilir ve arka plan el feneriyle değiştirilir
- CUDA hızlandırması ve
torch.bfloat16 desteği sayesinde verimli şekilde çalıştırılabilir
Demo örnekleri (Showcase)
- Semantik düzenleme: Karakter IP üretimi, nesne döndürme (90 derece, 180 derece), stil dönüşümü (ör. Ghibli tarzı) mümkündür
- Görünüş düzenleme: Tabela ekleme, saç kaldırma, belirli metin renklerini değiştirme, arka plan değiştirme, kıyafet değiştirme gibi işlemleri hassas biçimde gerçekleştirir
- Metin düzenleme: İngilizce ve Çince afişlerde büyük ve küçük yazılar dâhil olmak üzere doğru düzenleme yapılabilir
- Ardışık düzenleme zinciri: Hat eserlerindeki karakter hatalarını adım adım düzelterek sonunda eksiksiz bir sürüm oluşturan örnek gösterilir
Uygulama senaryoları
- Marka IP genişletme: Capybara karakteri tabanlı MBTI emojileri üretimine dair bir örnek sunulur
- Sanat ve yaratıcılık: Portrelerde farklı stil dönüşümleriyle sanal avatar üretimi mümkün hale gelir
- Endüstriyel kullanım: Tabela eklerken yansıma efektlerini bile doğal biçimde üreterek ince ayarlı düzenlemeleri destekler
Lisans
- Apache 2.0 lisansı ile yayımlanmıştır; serbestçe kullanılabilir, değiştirilebilir ve dağıtılabilir
Henüz yorum yok.