18 puan yazan GN⁺ 2025-08-21 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Qwen-Image-Edit, Qwen-Image modeli temel alınarak geliştirilen, görüntü düzenlemeye özel bir genişletilmiş modeldir
  • Giriş görüntüsünü aynı anda Qwen2.5-VL ve VAE Encoder'a göndererek hem semantik hem de görünüş düzenlemeyi destekleyen bir yapıya sahiptir
  • Metin düzenleme yeteneği güçlüdür; Çince ve İngilizcede yazı tipini, boyutu ve stili koruyarak doğrudan düzenleme yapılabilir
  • Çeşitli benchmark'larda en ileri düzey (SOTA) performans elde ederek görüntü düzenleme için güçlü bir temel model haline gelmiştir
  • Açık kaynak Apache 2.0 lisansıyla yayımlanmıştır; geliştiriciler ve araştırmacılar tarafından özgürce kullanılabilir

Giriş

  • Qwen-Image-Edit, Qwen-Image'in metin işleme yeteneğini genişleterek görüntü düzenlemeyi destekleyen bir modeldir
  • Görüntü girdisini aynı anda semantik kontrol için (Qwen2.5-VL) ve görünüş kontrolü için (VAE Encoder) ileten bir mimariye sahiptir
  • Hem hassas metin düzenlemeyi hem de semantik ve görünüş düzenlemeyi destekleme özelliğine sahiptir

Başlıca özellikler

  • Semantik & görünüş düzenleme: Nesne ekleme, silme, döndürme, stil dönüşümü gibi semantik değişiklikleri ve yalnızca belirli alanları değiştiren görünüş düzenlemelerini destekler
  • Hassas metin düzenleme: İngilizce ve Çince metinler doğrudan düzenlenebilir ve özgün yazı tipi ile stil korunur
  • Performans üstünlüğü: Birden çok herkese açık benchmark'ta en ileri düzey performans elde eder

Hızlı başlangıç

  • Hugging Face diffusers kütüphanesi üzerinden kullanılabilir
  • Örnek kodda tavşanın rengi mora çevrilir ve arka plan el feneriyle değiştirilir
  • CUDA hızlandırması ve torch.bfloat16 desteği sayesinde verimli şekilde çalıştırılabilir

Demo örnekleri (Showcase)

  • Semantik düzenleme: Karakter IP üretimi, nesne döndürme (90 derece, 180 derece), stil dönüşümü (ör. Ghibli tarzı) mümkündür
  • Görünüş düzenleme: Tabela ekleme, saç kaldırma, belirli metin renklerini değiştirme, arka plan değiştirme, kıyafet değiştirme gibi işlemleri hassas biçimde gerçekleştirir
  • Metin düzenleme: İngilizce ve Çince afişlerde büyük ve küçük yazılar dâhil olmak üzere doğru düzenleme yapılabilir
  • Ardışık düzenleme zinciri: Hat eserlerindeki karakter hatalarını adım adım düzelterek sonunda eksiksiz bir sürüm oluşturan örnek gösterilir

Uygulama senaryoları

  • Marka IP genişletme: Capybara karakteri tabanlı MBTI emojileri üretimine dair bir örnek sunulur
  • Sanat ve yaratıcılık: Portrelerde farklı stil dönüşümleriyle sanal avatar üretimi mümkün hale gelir
  • Endüstriyel kullanım: Tabela eklerken yansıma efektlerini bile doğal biçimde üreterek ince ayarlı düzenlemeleri destekler

Lisans

  • Apache 2.0 lisansı ile yayımlanmıştır; serbestçe kullanılabilir, değiştirilebilir ve dağıtılabilir

Henüz yorum yok.

Henüz yorum yok.