Metin-görüntü üretimli yapay zeka görüntü düzenleme modellerinin performans karşılaştırma analizi

(genai-showdown.specr.net)

3 puan yazan baeba 2025-10-29 | Henüz yorum yok. | WhatsApp'ta paylaş

Metin tabanlı görüntü düzenleme modellerinin performans karşılaştırma analizi özeti

Temel noktalar:
- En yeni metin tabanlı görüntü düzenleme modellerinden 7 tanesinin, 12 farklı düzenleme görevini yerine getirme becerisi değerlendirildi.
- Seedream 4, 12 görevin 9’unda başarılı olarak en yüksek performansı gösterdi; Gemini 2.5 Flash ise 7 başarıyla onu takip etti.
- Değerlendirme, tek istemli (One-shot) yaklaşım ve maskesiz (Non-masked) düzenleme gibi katı kurallar altında gerçekleştirildi.
- Modeller, uzamsal konum değiştirme ve belirli öğelerin seçici olarak kaldırılması gibi karmaşık talimatlarda düşük başarı oranı gösterdi.

Değerlendirme hedefi: Metin komutuna dayalı (Text-instructed) görüntü düzenlemeye odaklanarak çeşitli güncel SOTA görüntü düzenleme modellerinin performansını karşılaştırmalı olarak analiz etmek.
Değerlendirilen modeller (7 adet): Seedream 4, Gemini 2.5 Flash, Qwen-Image-Edit, FLUX.1 Kontext [dev], OpenAI gpt-image-1, OmniGen2, (ek 1 model listeden çıkarılmıştır).
Değerlendirme görevleri: Toplam 12 farklı zorluk seviyesi ve türde düzenleme istemi ile meydan okuma görevi sunuldu.
Yarışma kuralları:
- Tek deneme ilkesi (Single-attempt): Aynı görsel üzerinde art arda düzeltme istemleri kullanarak tekrar tekrar düzenleme yapmak yasaktı; hedefe tek denemede ulaşılması gerekiyordu.
- Tamamen metin tabanlı düzenleme (Purely text-based): Görüntü düzenleme yalnızca metin talimatlarıyla yapılmalıydı; bu nedenle img2img veya inpainting için manuel maskeleme (Manual Masking) gibi özelliklere izin verilmedi.

En yüksek performans: Seedream 4, 12 görevin 9’unda başarılı olarak en iyi performansı gösterdi.
İkinci en iyi performans: Gemini 2.5 Flash, 7 başarıyla ikinci sırada yer aldı.
Orta sıra: Qwen-Image-Edit 6, FLUX.1 Kontext [dev] ise 5 başarı elde etti.
Alt sıra: OpenAI gpt-image-1 4, OmniGen2 ise yalnızca 1 görevde başarılı oldu.

'SHRDLU' (blok konumlarını değiştirme): 6 modelin tamamı başarısız oldu (** 0/6**). Modellerin çoğu konumları değil yalnızca blok renklerini değiştirebildi; Gemini 2.5 Flash ve Seedream 4 de sadece renkleri değiştirdi.
'Eğik Pisa Kulesi’ni dik konuma getirme': 6 modelden 2’si başarılı oldu (** 2/6**). Bu görev temel uzamsal farkındalık gerektiriyordu ve modeller, çevreyi korurken yalnızca belirli nesneyi dikey olarak düzeltmekte zorlandı.

'Jaws’ı Paws’a çevirme gibi çoklu düzenleme': 6 modelden 5’i başarılı oldu (** 5/6**). Aynı anda birden fazla değişiklik yapmak gerekiyordu; OmniGen2 düzenlemeyi başarsa da orijinal estetik stili korumayı başaramadı.
'Sakallı bir erkeğe saç ekleme': 6 modelden 4’ü başarılı oldu (** 4/6**). Gemini 2.5 Flash’ın çıktısı fena değildi ancak saçlar fazla keskin görünüyordu; OpenAI gpt-image-1 ise tüm görüntüyü değiştirdi.
'Hwa-tu kartını değiştirme': 6 modelden 3’ü başarılı oldu (** 3/6**). Yalnızca belirli bir kartı (King of Spades) değiştirip diğer kartı (Ace of Spades) olduğu gibi bırakmaya yönelik seçici düzenleme becerisi testinde, Qwen-Image-Edit istenmeyen şekilde Ace of Spades’i de değiştirdi.

'Zürafanın boynunu kısaltma': 6 modelden yalnızca 1’i başarılı oldu (** 1/6**). Modellerin çoğu zürafanın boynunu kısaltmayı başaramadı; Qwen-Image-Edit ise istemi anormal biçimde yorumlayarak boynun tamamını kaldırdı.
'M&M kahverengi şekerini kaldırma': 6 modelden yalnızca 1’i başarılı oldu (** 1/6**). Belirli renkteki şekeri seçici olarak kaldırma (veya rengini değiştirme) konusunda zorlanıldı; Gemini 2.5 Flash ise yeni bir şeker dizilimi üretti.
'Eski bir tabeladaki kanguruyu kum kurdu silüetiyle değiştirme': 6 modelden yalnızca 1’i başarılı oldu (** 1/6**). Mevcut tabelanın çizik, pas gibi eski dokusunu koruyarak yeni öğeyi yerleştirme becerisi yetersiz kaldı.

En iyi modellerin özellikleri: Seedream 4 ve Gemini 2.5 Flash genel olarak üstün performans gösterdi, ancak karmaşık ve nüanslı metin talimatlarını eksiksiz anlayıp uygulamada hâlâ sınırları bulunuyor.
Başlıca başarısızlık türleri: Modeller, uzamsal ilişkileri doğru anlama ile görüntü içindeki belirli ince öğeleri seçici biçimde düzenleme ve koruma görevlerinde tutarlı olarak düşük başarı oranı kaydetti.
Gelecekteki gelişim yönleri:
- GPT-image-1, sık sık tüm görüntüyü istemeden değiştirme eğilimi gösterdiği için düzenleme alanını yerelleştirme doğruluğunu artırması gerekiyor.
- 'FLUX.1 Kontext [dev]' ve 'Kontext Max' gibi bazı modellerde, daha büyük modelin daha küçük geliştirme sürümünden daha kötü performans göstermesi gibi sıra dışı bir sonuç ortaya çıktı; bu da eğitim verisinin türünün (fotoğraf vs. illüstrasyon) performans üzerindeki etkisinin analiz edilmesini gerektiriyor.
- Tek istemle zor olan görevlerde (ör. kart tasarımını değiştirme), test yönteminin çoklu görüntüyü girdi olarak alıp referans veren bir yaklaşımla geliştirilmesi gerekiyor.