1 puan yazan GN⁺ 2025-10-28 | 1 yorum | WhatsApp'ta paylaş
  • Birden fazla görsel üreten yapay zeka modelini aynı prompt ile test ederek doğruluk, yaratıcılık ve tutarlılığı değerlendiren deneysel bir proje
  • OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, Midjourney v7 dahil toplam 14 model yer alıyor
  • Tüm modeller, inpainting veya düzenleme özellikleri olmadan, yalnızca verilen açıklamaya göre görsel üretiyor
  • Her testte net bir minimum geçme ölçütü bulunuyor ve başarı oranı görsel öğelerin karşılanıp karşılanmadığına göre hesaplanıyor
  • Sonuçlar, modeller arasındaki performans farkını ortaya koyarken karmaşık kavramları anlama ve matematiksel yapılar üretmenin hâlâ zor olduğunu gösteriyor

Deneyin genel çerçevesi

  • Her modelin saf üretim yeteneğini katı kurallar temelinde değerlendiren bir karşılaştırmalı benchmark deneyi
    • Inpainting, remix ve sonradan düzeltme talimatı gibi özelliklerin tamamı yasaklandı
    • Her modele prompt başına yalnızca onlarca deneme hakkı verildi
  • Değerlendirme ölçütleri, görsel koşulların doğru şekilde karşılanıp karşılanmadığına odaklanıyor

Başlıca test sonuçları

  • The Prussian Ring Toss
    • Prusyalı askerlerin birbirlerinin sivri miğferlerine halka attığı sahne
    • 6 modelden 5'i koşulları karşıladı; en yüksek başarı oranı burada görüldü
  • Nine-Pointed Star
    • 9 köşeli bir yıldızın tam olarak üretilmesi gereken görev
    • Modellerin çoğu çift sayılı formlara yakınsayarak başarısız oldu; yalnızca 3'ü başarılıydı
  • Spheron
    • Büyük İskender'in 'Hippity Hop' oyuncağına binerek savaştığı yağlı boya tarzı resim
    • Tarihsel bağlam ile modern bir nesneyi birleştirme becerisini ölçüyor; yalnızca 4 model başarılı oldu
  • Cubed⁵
    • Kırmızı–mavi–yeşil–mor–sarı sırasıyla dizilmiş 5 şeffaf cam küpün dikey olarak üst üste yığıldığı sahne
    • 5 model bunu doğru biçimde yeniden üretti; dikey en-boy oranı sonuç kalitesini ciddi biçimde etkiledi
  • Cephalopodic Puppet Show
    • Bir ahtapotun 8 kolunun her birine çorap kuklası geçirilmiş sahne
    • Kavramsal anlayış gerektiren bir testti ve yalnızca yarısı koşulları karşıladı

Ek test örnekleri

  • Quantum Entangled Einstein: Einstein ve kuantum mekaniğiyle ilgili fikir ampulü tasviri → 3/6 başarılı
  • The Yarrctic Circle: Buzdan protez bacak takan Arktik korsan görseli → 6/6 tüm modeller başarılı
  • The Labyrinth: Girişi, çıkışı ve yolu net olan 2D labirent üretimi → 1/6 başarılı
  • A Dicey Situation: 20 yüzlü zarın (D20) yalnızca asal sayı kazınmış yüzlerini üretme → 0/6 tüm modeller başarısız

Analiz ve çıkarımlar

  • Basit görsel stillerden çok mantıksal yapı ve kural temelli betimlemelerde hata sık görülüyor
  • Özellikle metin, sayı, simetrik yapı ve renk sırası gibi hassas koşullar içeren prompt'larda başarısızlık oranı yüksek
  • Buna karşılık duygusal ya da hayal gücü gerektiren anlatı odaklı prompt'larda görece daha yüksek tutarlılık görülüyor
  • Genel olarak GenAI modelleri, bileşik kavramları anlama ve yapısal yeniden üretim becerisindeki sınırlarını hâlâ ortaya koyuyor

Özet

  • Bu deney, metinden görsele modeller arasında 'gerçek anlayış' düzeyini ölçmeye çalışan ilgi çekici bir girişim
  • Midjourney ve OpenAI 4o gibi güncel modeller bile bazı mantıksal sahnelerde tamamen başarısız oldu
  • Sonuçlar, "metni anlamak" ile "anlamını doğru biçimde görselleştirmek" arasında fark olduğunu gösteriyor
  • Gelecekte model gelişiminin temel görevlerinden biri, dilsel bağlam ile görsel yapı arasındaki uyumu iyileştirmek gibi görünüyor

1 yorum

 
GN⁺ 2025-10-28
Hacker News görüşleri
  • GPT-4o kullanırken şirketin ahlaki yargıç gibi davranıp kullanıcının isteklerini sık sık reddetmesi gerçekten sinir bozucu
    Yasal olan şeyleri bile “izin verilmiyor” diye engellemesi, sanki 1964 tarzı sansürü şirketler dayatıyormuş gibi hissettiriyor
    GPT-5 de her sohbete “İyi bir soru”, “Harika bir gözlem” gibi yağcılık kokan ifadelerle başlayınca daha da çekilmez oluyor
    • İnsanlar Altman’ın ChatGPT’de NSFW’ye izin vermesini eleştirdi ama ben bunun kurumsal sansürün gevşetilmesi yönünde doğru adım olduğunu düşünüyorum
      Kullanıcı tercih verilerini RLHF ile eğitince modelde yağcılık hastalığı gibi bir yan etki ortaya çıkıyor
      Şu anda büyük LLM’lerin hepsi az çok bu durumda ama yine de GPT-4o’dan daha iyi olduklarını düşünüyorum
    • Çin kökenli modelleri kullanınca çok daha az kısıtlamayla karşılaşıyorsunuz, tabii birkaç istisna var
    • Kurumsal yazılımlarda NSFW’ye izin verildiğini hiç görmedim
      ChatGPT kurumsal müşterilere yönelik bir ürün, dolayısıyla şiddet içeren ya da müstehcen görseller üretebilseydi büyük şirketler bunu asla satın almazdı
      Fortune 500 şirketlerinde yazılım satın alma tarafında çalışmış biri olarak bundan %100 eminim
  • Yazıda tarih olmaması tuhaf geldi ama Wayback’e bakınca text-to-image sayfasının Nisan’da, image editing sayfasının ise Eylül’de eklendiğini doğruladım
    Tarih olmayınca ilk bakışta ikisi aynı anda yapılmış gibi görünüyor
    • Muhtemelen SEO ekibi, tarihsiz yazıların arama motorlarında daha iyi sıralandığına ikna etti
      Yastıklarının iki tarafı da sıcak olsun
    • Evet, oldukça eski bir içerik. Bugünün yapay zeka dünyasında bir hafta bile geçse eski sayılıyor
  • İlk başta “image editing” terimi kafamı karıştırdı
    Aslında yeni görseller üreten bir özellik ama sanki mevcut görseli düzenlemek anlamında kullanılmış
    Qwen3-VL-30B-A3B gibi çok modlu modeller mevcut görselleri iyi düzenliyor. imagegpt.com da fena değildi ama hangi modeli kullandığını bilmiyorum
    • Bu tür geri bildirimleri birkaç kez aldım, o yüzden üst gezinme çubuğunu daha görünür hale getirmem gerektiğini düşünüyorum
      Bu arada Qwen3-VL, görsel üretme ya da düzenleme değil, görsel muhakeme modeli
      Muhtemelen arka planda Qwen-Image-Edit kullanılmış olabilir
    • Benim gördüğüm sitede mevcut görselin düzenlendiği izlenimi vardı
      Mesela “kel adama saç ekle” prompt’unu verirseniz, orijinalin düzenlenmiş bir sonucu çıkıyor
      Teknik olarak bu yeni bir görsel üretme süreci ama bence Photoshop’ta Save As yapmakla benzer bir kavram
  • Asıl bağlantı https://genai-showdown.specr.net/image-editing
    • Evet, bu düzenleme bağlantısı. Diğeri text-to-image için
  • Modellerin içeride birden çok kez görsel üretip yalnızca en iyi sonucu gösteren bir yapıda olduğunu tahmin ediyorum
    GPT-4o’nun temperature değeri düşük olduğu için tutarlılığı yüksek ama yaratıcılığı zayıf, Midjourney ise daha yüksek temperature ile zengin arka planlar ve dokular üretiyor
    4o’nun sepya tonu sonradan işlenmiş de olabilir
    Gerçekte son görseli iyileştirmek için birkaç aşamadan geçen bir iş akışı olması muhtemel
    • Yerelde görsel modelleri bizzat çalıştırırsanız, barındırılan modellerin çoğunun birden fazla üretim yapmayıp tek sefer çalıştığını görürsünüz
      Ama LLM tabanlı modeller sık sık prompt rewriting kullanıyor
      DALL·E 3 örneği şu yazıda iyi anlatılıyor
    • Üretim denemesi sayısı ve her prompt için çıkan sonuçlar da paylaşılsa daha ilginç olurdu
  • “Alexander the Great on a Hippity Hop”ı görünce hemen upvote verdim
    • Ben de o oyuncağı tamamen unutmuştum ama bunu görünce çocukluk anılarım canlandı
    • Yine de at kimerası görselini daha çok beğeniyorum
  • Görsel modelleri karşılaştırmalı test etmek istiyorsanız BrandImageGen.com üzerinde ücretsiz deneyebilirsiniz
    Kayıtlı kullanıcıların geri bildirimlerini bekliyorum
  • “Yeşil fil çizme” memesinin nerede olduğunu soruyor ve GitHub tartışmasında önerildiğini fark ediyor
  • Çeşitli görsel üretim araçlarını karşılaştırmalı olarak inceleyen bir yazı paylaşıyor
    Generative AI Review bağlantısı
  • “Editing Showdown” sayesinde Seedream modelini ilk kez duydum
    Ancak birkaç denemeden sonra başka bir LLM’nin değerlendirme yaptığı yapıyı tam anlayamadım. Bunun kendi başına doğruluk sınırı yaratmayacağını merak ediyorum
    • FAQ’da değerlendirme ölçütleri açıkça yazıyor
      PASS/FAIL yöntemiyle, prompt’a uyan görseli bir kez bile üretemezse başarısız sayılıyor
      Fikir, “sokaktan rastgele birine gösterildiğinde prompt’u tahmin edebilir mi?” şeklinde bir Pictionary testi
      Nihai değerlendirme ise net ölçütlere göre manuel olarak yapılıyor
    • LLM’nin LLM’yi değerlendirmesi sektörde standart haline geldi
      İnsan değerlendiricileri bir kutuya kapatıp 7600 sonucu puanlatamazsınız
      Elbette LLM değerlendirmesi de kusursuz değil ama karşılaştırılabilirlik ve tutarlılık açısından insanlardan daha iyi
      Bunu optimizasyon hedefi değil de yalnızca bir performans termometresi olarak kullanırsanız büyük sorun çıkmaz
      Ama optimizasyon hedefi haline getirirseniz GPT-5’teki gibi garip çıktılar ortaya çıkabilir