- Birden fazla görsel üreten yapay zeka modelini aynı prompt ile test ederek doğruluk, yaratıcılık ve tutarlılığı değerlendiren deneysel bir proje
- OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, Midjourney v7 dahil toplam 14 model yer alıyor
- Tüm modeller, inpainting veya düzenleme özellikleri olmadan, yalnızca verilen açıklamaya göre görsel üretiyor
- Her testte net bir minimum geçme ölçütü bulunuyor ve başarı oranı görsel öğelerin karşılanıp karşılanmadığına göre hesaplanıyor
- Sonuçlar, modeller arasındaki performans farkını ortaya koyarken karmaşık kavramları anlama ve matematiksel yapılar üretmenin hâlâ zor olduğunu gösteriyor
Deneyin genel çerçevesi
- Her modelin saf üretim yeteneğini katı kurallar temelinde değerlendiren bir karşılaştırmalı benchmark deneyi
- Inpainting, remix ve sonradan düzeltme talimatı gibi özelliklerin tamamı yasaklandı
- Her modele prompt başına yalnızca onlarca deneme hakkı verildi
- Değerlendirme ölçütleri, görsel koşulların doğru şekilde karşılanıp karşılanmadığına odaklanıyor
Başlıca test sonuçları
- The Prussian Ring Toss
- Prusyalı askerlerin birbirlerinin sivri miğferlerine halka attığı sahne
- 6 modelden 5'i koşulları karşıladı; en yüksek başarı oranı burada görüldü
- Nine-Pointed Star
- 9 köşeli bir yıldızın tam olarak üretilmesi gereken görev
- Modellerin çoğu çift sayılı formlara yakınsayarak başarısız oldu; yalnızca 3'ü başarılıydı
- Spheron
- Büyük İskender'in 'Hippity Hop' oyuncağına binerek savaştığı yağlı boya tarzı resim
- Tarihsel bağlam ile modern bir nesneyi birleştirme becerisini ölçüyor; yalnızca 4 model başarılı oldu
- Cubed⁵
- Kırmızı–mavi–yeşil–mor–sarı sırasıyla dizilmiş 5 şeffaf cam küpün dikey olarak üst üste yığıldığı sahne
- 5 model bunu doğru biçimde yeniden üretti; dikey en-boy oranı sonuç kalitesini ciddi biçimde etkiledi
- Cephalopodic Puppet Show
- Bir ahtapotun 8 kolunun her birine çorap kuklası geçirilmiş sahne
- Kavramsal anlayış gerektiren bir testti ve yalnızca yarısı koşulları karşıladı
Ek test örnekleri
- Quantum Entangled Einstein: Einstein ve kuantum mekaniğiyle ilgili fikir ampulü tasviri → 3/6 başarılı
- The Yarrctic Circle: Buzdan protez bacak takan Arktik korsan görseli → 6/6 tüm modeller başarılı
- The Labyrinth: Girişi, çıkışı ve yolu net olan 2D labirent üretimi → 1/6 başarılı
- A Dicey Situation: 20 yüzlü zarın (D20) yalnızca asal sayı kazınmış yüzlerini üretme → 0/6 tüm modeller başarısız
Analiz ve çıkarımlar
- Basit görsel stillerden çok mantıksal yapı ve kural temelli betimlemelerde hata sık görülüyor
- Özellikle metin, sayı, simetrik yapı ve renk sırası gibi hassas koşullar içeren prompt'larda başarısızlık oranı yüksek
- Buna karşılık duygusal ya da hayal gücü gerektiren anlatı odaklı prompt'larda görece daha yüksek tutarlılık görülüyor
- Genel olarak GenAI modelleri, bileşik kavramları anlama ve yapısal yeniden üretim becerisindeki sınırlarını hâlâ ortaya koyuyor
Özet
- Bu deney, metinden görsele modeller arasında 'gerçek anlayış' düzeyini ölçmeye çalışan ilgi çekici bir girişim
- Midjourney ve OpenAI 4o gibi güncel modeller bile bazı mantıksal sahnelerde tamamen başarısız oldu
- Sonuçlar, "metni anlamak" ile "anlamını doğru biçimde görselleştirmek" arasında fark olduğunu gösteriyor
- Gelecekte model gelişiminin temel görevlerinden biri, dilsel bağlam ile görsel yapı arasındaki uyumu iyileştirmek gibi görünüyor
1 yorum
Hacker News görüşleri
Yasal olan şeyleri bile “izin verilmiyor” diye engellemesi, sanki 1964 tarzı sansürü şirketler dayatıyormuş gibi hissettiriyor
GPT-5 de her sohbete “İyi bir soru”, “Harika bir gözlem” gibi yağcılık kokan ifadelerle başlayınca daha da çekilmez oluyor
Kullanıcı tercih verilerini RLHF ile eğitince modelde yağcılık hastalığı gibi bir yan etki ortaya çıkıyor
Şu anda büyük LLM’lerin hepsi az çok bu durumda ama yine de GPT-4o’dan daha iyi olduklarını düşünüyorum
ChatGPT kurumsal müşterilere yönelik bir ürün, dolayısıyla şiddet içeren ya da müstehcen görseller üretebilseydi büyük şirketler bunu asla satın almazdı
Fortune 500 şirketlerinde yazılım satın alma tarafında çalışmış biri olarak bundan %100 eminim
Tarih olmayınca ilk bakışta ikisi aynı anda yapılmış gibi görünüyor
Yastıklarının iki tarafı da sıcak olsun
Aslında yeni görseller üreten bir özellik ama sanki mevcut görseli düzenlemek anlamında kullanılmış
Qwen3-VL-30B-A3B gibi çok modlu modeller mevcut görselleri iyi düzenliyor. imagegpt.com da fena değildi ama hangi modeli kullandığını bilmiyorum
Bu arada Qwen3-VL, görsel üretme ya da düzenleme değil, görsel muhakeme modeli
Muhtemelen arka planda Qwen-Image-Edit kullanılmış olabilir
Mesela “kel adama saç ekle” prompt’unu verirseniz, orijinalin düzenlenmiş bir sonucu çıkıyor
Teknik olarak bu yeni bir görsel üretme süreci ama bence Photoshop’ta Save As yapmakla benzer bir kavram
GPT-4o’nun temperature değeri düşük olduğu için tutarlılığı yüksek ama yaratıcılığı zayıf, Midjourney ise daha yüksek temperature ile zengin arka planlar ve dokular üretiyor
4o’nun sepya tonu sonradan işlenmiş de olabilir
Gerçekte son görseli iyileştirmek için birkaç aşamadan geçen bir iş akışı olması muhtemel
Ama LLM tabanlı modeller sık sık prompt rewriting kullanıyor
DALL·E 3 örneği şu yazıda iyi anlatılıyor
Kayıtlı kullanıcıların geri bildirimlerini bekliyorum
Generative AI Review bağlantısı
Ancak birkaç denemeden sonra başka bir LLM’nin değerlendirme yaptığı yapıyı tam anlayamadım. Bunun kendi başına doğruluk sınırı yaratmayacağını merak ediyorum
PASS/FAIL yöntemiyle, prompt’a uyan görseli bir kez bile üretemezse başarısız sayılıyor
Fikir, “sokaktan rastgele birine gösterildiğinde prompt’u tahmin edebilir mi?” şeklinde bir Pictionary testi
Nihai değerlendirme ise net ölçütlere göre manuel olarak yapılıyor
İnsan değerlendiricileri bir kutuya kapatıp 7600 sonucu puanlatamazsınız
Elbette LLM değerlendirmesi de kusursuz değil ama karşılaştırılabilirlik ve tutarlılık açısından insanlardan daha iyi
Bunu optimizasyon hedefi değil de yalnızca bir performans termometresi olarak kullanırsanız büyük sorun çıkmaz
Ama optimizasyon hedefi haline getirirseniz GPT-5’teki gibi garip çıktılar ortaya çıkabilir