GenAI görsel kapışması (Showdown)

(genai-showdown.specr.net)

1 puan yazan GN⁺ 2025-10-28 | 1 yorum | WhatsApp'ta paylaş

Birden fazla görsel üreten yapay zeka modelini aynı prompt ile test ederek doğruluk, yaratıcılık ve tutarlılığı değerlendiren deneysel bir proje
OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, Midjourney v7 dahil toplam 14 model yer alıyor
Tüm modeller, inpainting veya düzenleme özellikleri olmadan, yalnızca verilen açıklamaya göre görsel üretiyor
Her testte net bir minimum geçme ölçütü bulunuyor ve başarı oranı görsel öğelerin karşılanıp karşılanmadığına göre hesaplanıyor
Sonuçlar, modeller arasındaki performans farkını ortaya koyarken karmaşık kavramları anlama ve matematiksel yapılar üretmenin hâlâ zor olduğunu gösteriyor

Deneyin genel çerçevesi

Her modelin saf üretim yeteneğini katı kurallar temelinde değerlendiren bir karşılaştırmalı benchmark deneyi
- Inpainting, remix ve sonradan düzeltme talimatı gibi özelliklerin tamamı yasaklandı
- Her modele prompt başına yalnızca onlarca deneme hakkı verildi
Değerlendirme ölçütleri, görsel koşulların doğru şekilde karşılanıp karşılanmadığına odaklanıyor

Başlıca test sonuçları

The Prussian Ring Toss
- Prusyalı askerlerin birbirlerinin sivri miğferlerine halka attığı sahne
- 6 modelden 5'i koşulları karşıladı; en yüksek başarı oranı burada görüldü
Nine-Pointed Star
- 9 köşeli bir yıldızın tam olarak üretilmesi gereken görev
- Modellerin çoğu çift sayılı formlara yakınsayarak başarısız oldu; yalnızca 3'ü başarılıydı
Spheron
- Büyük İskender'in 'Hippity Hop' oyuncağına binerek savaştığı yağlı boya tarzı resim
- Tarihsel bağlam ile modern bir nesneyi birleştirme becerisini ölçüyor; yalnızca 4 model başarılı oldu
Cubed⁵
- Kırmızı–mavi–yeşil–mor–sarı sırasıyla dizilmiş 5 şeffaf cam küpün dikey olarak üst üste yığıldığı sahne
- 5 model bunu doğru biçimde yeniden üretti; dikey en-boy oranı sonuç kalitesini ciddi biçimde etkiledi
Cephalopodic Puppet Show
- Bir ahtapotun 8 kolunun her birine çorap kuklası geçirilmiş sahne
- Kavramsal anlayış gerektiren bir testti ve yalnızca yarısı koşulları karşıladı

Ek test örnekleri

Quantum Entangled Einstein: Einstein ve kuantum mekaniğiyle ilgili fikir ampulü tasviri → 3/6 başarılı
The Yarrctic Circle: Buzdan protez bacak takan Arktik korsan görseli → 6/6 tüm modeller başarılı
The Labyrinth: Girişi, çıkışı ve yolu net olan 2D labirent üretimi → 1/6 başarılı
A Dicey Situation: 20 yüzlü zarın (D20) yalnızca asal sayı kazınmış yüzlerini üretme → 0/6 tüm modeller başarısız

Analiz ve çıkarımlar

Basit görsel stillerden çok mantıksal yapı ve kural temelli betimlemelerde hata sık görülüyor
Özellikle metin, sayı, simetrik yapı ve renk sırası gibi hassas koşullar içeren prompt'larda başarısızlık oranı yüksek
Buna karşılık duygusal ya da hayal gücü gerektiren anlatı odaklı prompt'larda görece daha yüksek tutarlılık görülüyor
Genel olarak GenAI modelleri, bileşik kavramları anlama ve yapısal yeniden üretim becerisindeki sınırlarını hâlâ ortaya koyuyor

Özet

Bu deney, metinden görsele modeller arasında 'gerçek anlayış' düzeyini ölçmeye çalışan ilgi çekici bir girişim
Midjourney ve OpenAI 4o gibi güncel modeller bile bazı mantıksal sahnelerde tamamen başarısız oldu
Sonuçlar, "metni anlamak" ile "anlamını doğru biçimde görselleştirmek" arasında fark olduğunu gösteriyor
Gelecekte model gelişiminin temel görevlerinden biri, dilsel bağlam ile görsel yapı arasındaki uyumu iyileştirmek gibi görünüyor

1 yorum

GN⁺ 2025-10-28

Hacker News görüşleri

GPT-4o kullanırken şirketin ahlaki yargıç gibi davranıp kullanıcının isteklerini sık sık reddetmesi gerçekten sinir bozucu
Yasal olan şeyleri bile “izin verilmiyor” diye engellemesi, sanki 1964 tarzı sansürü şirketler dayatıyormuş gibi hissettiriyor
GPT-5 de her sohbete “İyi bir soru”, “Harika bir gözlem” gibi yağcılık kokan ifadelerle başlayınca daha da çekilmez oluyor
- İnsanlar Altman’ın ChatGPT’de NSFW’ye izin vermesini eleştirdi ama ben bunun kurumsal sansürün gevşetilmesi yönünde doğru adım olduğunu düşünüyorum
  Kullanıcı tercih verilerini RLHF ile eğitince modelde yağcılık hastalığı gibi bir yan etki ortaya çıkıyor
  Şu anda büyük LLM’lerin hepsi az çok bu durumda ama yine de GPT-4o’dan daha iyi olduklarını düşünüyorum
- Çin kökenli modelleri kullanınca çok daha az kısıtlamayla karşılaşıyorsunuz, tabii birkaç istisna var
- Kurumsal yazılımlarda NSFW’ye izin verildiğini hiç görmedim
  ChatGPT kurumsal müşterilere yönelik bir ürün, dolayısıyla şiddet içeren ya da müstehcen görseller üretebilseydi büyük şirketler bunu asla satın almazdı
  Fortune 500 şirketlerinde yazılım satın alma tarafında çalışmış biri olarak bundan %100 eminim
Yazıda tarih olmaması tuhaf geldi ama Wayback’e bakınca text-to-image sayfasının Nisan’da, image editing sayfasının ise Eylül’de eklendiğini doğruladım
Tarih olmayınca ilk bakışta ikisi aynı anda yapılmış gibi görünüyor
- Muhtemelen SEO ekibi, tarihsiz yazıların arama motorlarında daha iyi sıralandığına ikna etti
  Yastıklarının iki tarafı da sıcak olsun
- Evet, oldukça eski bir içerik. Bugünün yapay zeka dünyasında bir hafta bile geçse eski sayılıyor
İlk başta “image editing” terimi kafamı karıştırdı
Aslında yeni görseller üreten bir özellik ama sanki mevcut görseli düzenlemek anlamında kullanılmış
Qwen3-VL-30B-A3B gibi çok modlu modeller mevcut görselleri iyi düzenliyor. imagegpt.com da fena değildi ama hangi modeli kullandığını bilmiyorum
- Bu tür geri bildirimleri birkaç kez aldım, o yüzden üst gezinme çubuğunu daha görünür hale getirmem gerektiğini düşünüyorum
  Bu arada Qwen3-VL, görsel üretme ya da düzenleme değil, görsel muhakeme modeli
  Muhtemelen arka planda Qwen-Image-Edit kullanılmış olabilir
- Benim gördüğüm sitede mevcut görselin düzenlendiği izlenimi vardı
  Mesela “kel adama saç ekle” prompt’unu verirseniz, orijinalin düzenlenmiş bir sonucu çıkıyor
  Teknik olarak bu yeni bir görsel üretme süreci ama bence Photoshop’ta Save As yapmakla benzer bir kavram
Asıl bağlantı https://genai-showdown.specr.net/image-editing
- Evet, bu düzenleme bağlantısı. Diğeri text-to-image için
Modellerin içeride birden çok kez görsel üretip yalnızca en iyi sonucu gösteren bir yapıda olduğunu tahmin ediyorum
GPT-4o’nun temperature değeri düşük olduğu için tutarlılığı yüksek ama yaratıcılığı zayıf, Midjourney ise daha yüksek temperature ile zengin arka planlar ve dokular üretiyor
4o’nun sepya tonu sonradan işlenmiş de olabilir
Gerçekte son görseli iyileştirmek için birkaç aşamadan geçen bir iş akışı olması muhtemel
- Yerelde görsel modelleri bizzat çalıştırırsanız, barındırılan modellerin çoğunun birden fazla üretim yapmayıp tek sefer çalıştığını görürsünüz
  Ama LLM tabanlı modeller sık sık prompt rewriting kullanıyor
  DALL·E 3 örneği şu yazıda iyi anlatılıyor
- Üretim denemesi sayısı ve her prompt için çıkan sonuçlar da paylaşılsa daha ilginç olurdu
“Alexander the Great on a Hippity Hop”ı görünce hemen upvote verdim
- Ben de o oyuncağı tamamen unutmuştum ama bunu görünce çocukluk anılarım canlandı
- Yine de at kimerası görselini daha çok beğeniyorum
Görsel modelleri karşılaştırmalı test etmek istiyorsanız BrandImageGen.com üzerinde ücretsiz deneyebilirsiniz
Kayıtlı kullanıcıların geri bildirimlerini bekliyorum
“Yeşil fil çizme” memesinin nerede olduğunu soruyor ve GitHub tartışmasında önerildiğini fark ediyor
Çeşitli görsel üretim araçlarını karşılaştırmalı olarak inceleyen bir yazı paylaşıyor
Generative AI Review bağlantısı
“Editing Showdown” sayesinde Seedream modelini ilk kez duydum
Ancak birkaç denemeden sonra başka bir LLM’nin değerlendirme yaptığı yapıyı tam anlayamadım. Bunun kendi başına doğruluk sınırı yaratmayacağını merak ediyorum
- FAQ’da değerlendirme ölçütleri açıkça yazıyor
  PASS/FAIL yöntemiyle, prompt’a uyan görseli bir kez bile üretemezse başarısız sayılıyor
  Fikir, “sokaktan rastgele birine gösterildiğinde prompt’u tahmin edebilir mi?” şeklinde bir Pictionary testi
  Nihai değerlendirme ise net ölçütlere göre manuel olarak yapılıyor
- LLM’nin LLM’yi değerlendirmesi sektörde standart haline geldi
  İnsan değerlendiricileri bir kutuya kapatıp 7600 sonucu puanlatamazsınız
  Elbette LLM değerlendirmesi de kusursuz değil ama karşılaştırılabilirlik ve tutarlılık açısından insanlardan daha iyi
  Bunu optimizasyon hedefi değil de yalnızca bir performans termometresi olarak kullanırsanız büyük sorun çıkmaz
  Ama optimizasyon hedefi haline getirirseniz GPT-5’teki gibi garip çıktılar ortaya çıkabilir

GenAI görsel kapışması (Showdown)

Deneyin genel çerçevesi

Başlıca test sonuçları

Ek test örnekleri

Analiz ve çıkarımlar

Özet

İlgili okumalar

1 yorum

Hacker News görüşleri