Metin tabanlı görüntü düzenleme modellerinin performans karşılaştırma analizi özeti
- Temel noktalar:
- En yeni metin tabanlı görüntü düzenleme modellerinden 7 tanesinin, 12 farklı düzenleme görevini yerine getirme becerisi değerlendirildi.
- Seedream 4, 12 görevin 9’unda başarılı olarak en yüksek performansı gösterdi; Gemini 2.5 Flash ise 7 başarıyla onu takip etti.
- Değerlendirme, tek istemli (One-shot) yaklaşım ve maskesiz (Non-masked) düzenleme gibi katı kurallar altında gerçekleştirildi.
- Modeller, uzamsal konum değiştirme ve belirli öğelerin seçici olarak kaldırılması gibi karmaşık talimatlarda düşük başarı oranı gösterdi.
Ⅰ. Giriş
- Değerlendirme hedefi: Metin komutuna dayalı (Text-instructed) görüntü düzenlemeye odaklanarak çeşitli güncel SOTA görüntü düzenleme modellerinin performansını karşılaştırmalı olarak analiz etmek.
- Değerlendirilen modeller (7 adet): Seedream 4, Gemini 2.5 Flash, Qwen-Image-Edit, FLUX.1 Kontext [dev], OpenAI gpt-image-1, OmniGen2, (ek 1 model listeden çıkarılmıştır).
- Değerlendirme görevleri: Toplam 12 farklı zorluk seviyesi ve türde düzenleme istemi ile meydan okuma görevi sunuldu.
- Yarışma kuralları:
- Tek deneme ilkesi (Single-attempt): Aynı görsel üzerinde art arda düzeltme istemleri kullanarak tekrar tekrar düzenleme yapmak yasaktı; hedefe tek denemede ulaşılması gerekiyordu.
- Tamamen metin tabanlı düzenleme (Purely text-based): Görüntü düzenleme yalnızca metin talimatlarıyla yapılmalıydı; bu nedenle img2img veya inpainting için manuel maskeleme (Manual Masking) gibi özelliklere izin verilmedi.
Ⅱ. Ana bölüm: Modellere göre performans ve temel görev analizi
1. Genel model başarı oranı karşılaştırması
- En yüksek performans: Seedream 4, 12 görevin 9’unda başarılı olarak en iyi performansı gösterdi.
- İkinci en iyi performans: Gemini 2.5 Flash, 7 başarıyla ikinci sırada yer aldı.
- Orta sıra: Qwen-Image-Edit 6, FLUX.1 Kontext [dev] ise 5 başarı elde etti.
- Alt sıra: OpenAI gpt-image-1 4, OmniGen2 ise yalnızca 1 görevde başarılı oldu.
2. Belirli düzenleme türlerine göre model performansı analizi
2.1. Uzamsal algı ve konum ayarlama görevleri: düşük başarı oranı
- 'SHRDLU' (blok konumlarını değiştirme): 6 modelin tamamı başarısız oldu (** 0/6**). Modellerin çoğu konumları değil yalnızca blok renklerini değiştirebildi; Gemini 2.5 Flash ve Seedream 4 de sadece renkleri değiştirdi.
- 'Eğik Pisa Kulesi’ni dik konuma getirme': 6 modelden 2’si başarılı oldu (** 2/6**). Bu görev temel uzamsal farkındalık gerektiriyordu ve modeller, çevreyi korurken yalnızca belirli nesneyi dikey olarak düzeltmekte zorlandı.
2.2. Ayrıntı değiştirme ve koruma görevleri: karma sonuçlar
- 'Jaws’ı Paws’a çevirme gibi çoklu düzenleme': 6 modelden 5’i başarılı oldu (** 5/6**). Aynı anda birden fazla değişiklik yapmak gerekiyordu; OmniGen2 düzenlemeyi başarsa da orijinal estetik stili korumayı başaramadı.
- 'Sakallı bir erkeğe saç ekleme': 6 modelden 4’ü başarılı oldu (** 4/6**). Gemini 2.5 Flash’ın çıktısı fena değildi ancak saçlar fazla keskin görünüyordu; OpenAI gpt-image-1 ise tüm görüntüyü değiştirdi.
- 'Hwa-tu kartını değiştirme': 6 modelden 3’ü başarılı oldu (** 3/6**). Yalnızca belirli bir kartı (King of Spades) değiştirip diğer kartı (Ace of Spades) olduğu gibi bırakmaya yönelik seçici düzenleme becerisi testinde, Qwen-Image-Edit istenmeyen şekilde Ace of Spades’i de değiştirdi.
2.3. Ayrıntı koruma ve karmaşık nesne manipülasyonu görevleri: en büyük zorluk
- 'Zürafanın boynunu kısaltma': 6 modelden yalnızca 1’i başarılı oldu (** 1/6**). Modellerin çoğu zürafanın boynunu kısaltmayı başaramadı; Qwen-Image-Edit ise istemi anormal biçimde yorumlayarak boynun tamamını kaldırdı.
- 'M&M kahverengi şekerini kaldırma': 6 modelden yalnızca 1’i başarılı oldu (** 1/6**). Belirli renkteki şekeri seçici olarak kaldırma (veya rengini değiştirme) konusunda zorlanıldı; Gemini 2.5 Flash ise yeni bir şeker dizilimi üretti.
- 'Eski bir tabeladaki kanguruyu kum kurdu silüetiyle değiştirme': 6 modelden yalnızca 1’i başarılı oldu (** 1/6**). Mevcut tabelanın çizik, pas gibi eski dokusunu koruyarak yeni öğeyi yerleştirme becerisi yetersiz kaldı.
Ⅲ. Sonuç
- En iyi modellerin özellikleri: Seedream 4 ve Gemini 2.5 Flash genel olarak üstün performans gösterdi, ancak karmaşık ve nüanslı metin talimatlarını eksiksiz anlayıp uygulamada hâlâ sınırları bulunuyor.
- Başlıca başarısızlık türleri: Modeller, uzamsal ilişkileri doğru anlama ile görüntü içindeki belirli ince öğeleri seçici biçimde düzenleme ve koruma görevlerinde tutarlı olarak düşük başarı oranı kaydetti.
- Gelecekteki gelişim yönleri:
- GPT-image-1, sık sık tüm görüntüyü istemeden değiştirme eğilimi gösterdiği için düzenleme alanını yerelleştirme doğruluğunu artırması gerekiyor.
- 'FLUX.1 Kontext [dev]' ve 'Kontext Max' gibi bazı modellerde, daha büyük modelin daha küçük geliştirme sürümünden daha kötü performans göstermesi gibi sıra dışı bir sonuç ortaya çıktı; bu da eğitim verisinin türünün (fotoğraf vs. illüstrasyon) performans üzerindeki etkisinin analiz edilmesini gerektiriyor.
- Tek istemle zor olan görevlerde (ör. kart tasarımını değiştirme), test yönteminin çoklu görüntüyü girdi olarak alıp referans veren bir yaklaşımla geliştirilmesi gerekiyor.
Henüz yorum yok.