10 puan yazan GN⁺ 2026-02-25 | 3 yorum | WhatsApp'ta paylaş
  • 53 büyük AI modeli üzerinde yapılan testin sonucu, çoğunun temel akıl yürütmede başarısız olduğunu gösteriyor
  • Doğru cevap ‘arabayla gitmek’ olsa da 53 modelden 42’si ‘yürümek’ seçeneğini tercih etti
  • Claude Opus 4.6, Gemini 3 serisi, Grok-4 gibi yalnızca 5 model, 10 tekrarlı testte de %100 tutarlı doğru cevap verdi
  • GPT-5, 10 denemenin yalnızca 7’sinde doğru yanıt vererek ortalama insan doğruluk oranına (%71,5) benzer bir seviyede değerlendirildi
  • Deney, AI’nin tutarlı akıl yürütme yeteneğindeki eksikliği ve bağlam temelli muhakemenin sınırlarını ortaya koyarken, bunu tamamlamak için ‘context engineering’in önemini vurguluyor

Oto yıkama testine genel bakış

  • Test, “Oto yıkama 50 metre uzaktaysa yürür müsün, arabayla mı gidersin?” sorusundan oluşuyor
    • Doğru cevap ‘arabayla gitmek’; çünkü arabayı yıkatmak için aracın oto yıkamada olması gerekir
  • 53 model, Opper’ın LLM Gateway sistemi üzerinden aynı koşullarda değerlendirildi
    • Sistem prompt’u olmadan, walk veya drive seçeneklerinden birini zorunlu olarak seçmeleri istendi
    • Her model için önce 1 test yapıldı, ardından tutarlılığı doğrulamak için 10 tekrarlı test uygulandı

İlk tek çalıştırma sonuçları

  • 53 modelden yalnızca 11’i doğru cevap verdi (drive), 42 model ise yanlış cevap verdi (walk)
  • Doğru cevap veren modeller: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
  • Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral gibi büyük aileler arasında performans farkı görüldü
    • Anthropic: 1/9 (yalnızca Opus 4.6 doğru)
    • OpenAI: 1/12 (yalnızca GPT-5 doğru)
    • Meta(Llama), Mistral, DeepSeek gibi aileler ise tamamen başarısız oldu
  • Yanlış cevapların çoğu, “50 metre kısa bir mesafe, bu yüzden yürümek daha verimli” şeklindeki mesafe odaklı sezgisel hatadan kaynaklandı
  • Bazı modeller doğru cevabı verse de mantıksız gerekçeler sundu
    • Örnek: Perplexity Sonar, “yürümek gıda üretimi enerjisini daha fazla tükettiği için aslında daha fazla kirlilik yaratır” iddiasında bulundu

İkinci aşama: 10 tekrarlı test

  • Toplam 530 çağrının sonucunda, tutarlı doğru cevap oranı daha da düşük çıktı
  • 10/10 doğru cevap veren modeller (5 adet): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
  • 8/10 doğru cevap veren modeller (2 adet): GLM-5, Grok-4-1 Reasoning
  • GPT-5, 7/10 doğru yaptı; kalan 3 denemede yakıt verimliliği ve çevre mantığıyla yanlış cevap verdi
  • 33 model, 10 denemenin tamamında yanlış cevap verdi; bunlara GPT-4.1, GPT-5.1, Llama, Mistral de dahil
  • Bazı modeller ilk denemede doğru cevap vermiş olsa da tekrar testlerinde sonuçlar kararsız kaldı
    • Sonar: 1 kez doğru → 10 denemenin tamamında yanlış
    • Kimi K2.5: 5 kez doğru, 5 kez yanlış
    • GLM-4.7: 1 kez yanlış → 10 denemede 6 kez doğruya yükseldi

İnsanlarla karşılaştırma deneyi

  • Rapidata platformu üzerinden 10.000 kişiye aynı soru yöneltildi
    • %71,5’i ‘arabayla gitmek’ seçeneğini seçti ve bu oran ortalama insan doğruluk seviyesi olarak belirlendi
  • GPT-5’in %70 doğruluk oranı, insan ortalamasına benziyor
  • 53 model arasında yalnızca 7 model insan ortalamasını aştı; kalan 46 model ise insanlardan daha düşük performans gösterdi

Dikkat çeken akıl yürütme örnekleri

  • GLM-4.7 Flash: “Yürürsen arabayı itmen ya da taşıman gerekir, bu yüzden mümkün değil” diyerek net bir mantık sundu
  • Claude Sonnet 4.5: “Eğer bu bir otomatik oto yıkamaysa arabayla gitmek gerekir” sonucunu fark etti, ama son cevap olarak yine ‘walk’ seçti
  • Gemini 2.5 Pro: Doğru cevap verdiğinde “arabayı yıkatmak için oto yıkamada olması gerekir” diye isabetli bir açıklama yaptı; yanlış cevap verdiğinde ise “50 metre kısa mesafe” mantığını kullandı

AI güvenilirliği sorunu

  • Yalnızca tek bir mantık adımı gerektiren basit bir problem olmasına rağmen 53 modelden sadece 5’i tamamen doğru çıktı
  • Başarısızlık türleri üçe ayrılıyor
    • Her zaman yanlış (33 model): mesafe odaklı sezgisel yaklaşıma saplanıp kalıyor
    • Bazen doğru (15 model): akıl yürütme yeteneği var ama tutarlılık yok
    • Her zaman doğru (5 model): bağlamsal muhakeme, sezgisel kısayolu istikrarlı biçimde aşıyor
  • Bu kadar basit bir soruda bile modellerin %90’ının başarısız olması, gerçek iş mantığında veya çok adımlı akıl yürütmede ortaya çıkabilecek riske işaret ediyor

Context engineering’in rolü

  • Bu test, ‘sıfır bağlam’ ortamında yapıldı ve modelin saf akıl yürütme kapasitesini ölçmeyi amaçladı
  • Birçok modelin başarısız olmasının nedeni, sezgisel kısayolların bağlamsal muhakemeye baskın gelmesi
  • Context engineering, örnekler, alan kalıpları ve ilgili bilgiler sağlayarak bu tür hataları azaltıyor
    • Opper’ın ayrı bir deneyinde, küçük bir açık modele bağlam eklendiğinde %98,6 maliyet tasarrufuyla büyük model seviyesinde kalite elde edildi
  • Oto yıkama sorusu basit olsa da gerçek işler belirsizlik ve alan bilgisi gerektirdiğinden, bağlam tasarımı kritik önem taşıyor

Deney metodolojisi

  • Tüm modeller, Opper LLM Gateway üzerinden aynı prompt ile test edildi
    • “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
    • Sistem prompt’u yoktu; drive veya walk seçeneklerinden birini seçmeleri zorunlu tutuldu
    • Tek çalıştırma (1 kez) ve 10 tekrarlı test (toplam 530 çağrı) yapıldı; tüm çağrı log’ları kaydedildi ve akıl yürütme metinleri saklandı
  • İnsan karşılaştırma grubu için Rapidata üzerinden aynı formatta 10.000 kişilik bir anket yapıldı
  • Tüm veriler JSON formatında kamuya açıldı
    • Tek çalıştırma sonuçları, 10 tekrarlı sonuçlar ve insan sonuçları ayrı ayrı indirilebiliyor

3 yorum

 
armila 2026-02-26

Gemini Pro ise,
Arabayı götürebiliyorsan yürüyerek de gidebileceğini diye cevap verince buna bayağı gülmüştüm.

 
grenade 2026-02-27

Esprili bir yanıt olmuş haha

 
GN⁺ 2026-02-25
Hacker News görüşleri
  • İnsanların verdiği yanıtların ChatGPT ile birebir aynı çıkması ilginç
    Pratikte bu, “insan yanıt hizmeti”nin fiilen öldüğü anlamına geliyor gibi görünüyor. Sonuçta insanlar, kaliteye bakmaksızın işi AI'a yıkmanın bir yolunu bulacaktır

    • Tesadüf gibi görünse de, gerçekte insan yanıtları bu şekilde toplanmış değil
      Rapidata, Duolingo ya da oyun uygulamaları gibi yerlere reklam yerine katılım sağlamak için mikro anketler entegre ediyor. Kullanıcılar doğrulanmış kişiler ve doğru cevabı verme yönünde bir teşvikleri yok
    • ChatGPT'nin varsayılan modeli GPT‑5.2 Instant. İnsan sonuçlarıyla eşleşen ise GPT‑5 modeli
      Yukarıdaki yorumdaki gibi temelsiz bir özgüvenle sonuca varmak ilginç bir olgu
    • Bu tür şeyler eskiden beri 3rd-party insan iş gücü hizmetlerinde sık görülüyordu
  • Ben, ‘misguided attention’ türü sorulardan oluşan kişisel bir değerlendirme seti tutuyorum
    Bu problemlerin özü mantık hatası değil, muğlaklık ve bağlam eksikliği. İnsanlar örtük varsayımları doldurur ama modeller bunu yapamaz
    “AI bu kadar basit soruları bile yanlış yapıyor” örneklerinin çoğu, istatistiksel önyargıyı tetikleyecek şekilde tasarlanmış cümlelerdir. Bağlamı biraz değiştirince sonuç tersine döner
    Yani modelin başarısızlığı, akıl yürütme yeteneğinin yokluğundan değil, çerçevelemeye duyarlılıktan kaynaklanıyor

    • Bu, sonuçta AI'ın berbat olduğu anlamına geliyor. Belirli sorulara göre eğitince başka yerler bozuluyor. Bu böyle sürüp gidecek
    • Bazıları, “çerçeveleme ve dağılımsal önyargıya duyarlı” ifadesinin aslında akıl yürütme yeteneği eksikliğini dolaylı anlatmanın başka bir yolu olduğunu savunuyor
    • İlginç bir set gibi görünüyor. Mümkünse soruları paylaşabilir misin merak ediyorum
    • Bu değerlendirme setini açık yayımlasan iyi olur, özellikle de en ilginç soruların hangileri olduğunu merak ediyorum
  • İnsanlar için %71,5'lik oran, problemin muğlaklığını gösteriyor
    “Oto yıkamaya yürür müsün, arabayla mı gidersin?” sorusu, “Bu kadar kısa mesafe için gerçekten araba kullanmak gerekir mi?” diye yorumlanabilir. Yani bu basit bir mantık problemi değil, edimbilimsel yorumlama problemi

    • Soru baştan muğlak değil; konuşma durumu başlı başına bir bilgi işlevi görüyor
      İnsanlar, sorunun gerçek bir durumdan çıktığını varsayıyor ve işbirlikçi konuşma ilkelerine, yani Grice'ın işbirliği ilkesine göre yorumluyor.
      Bu yüzden “Bu bir tuzak soru galiba” diye fark edene kadar “Demek ki yürümek için bir sebep var” diye düşünüyorlar
    • Bu tür 70:30 oranları başka toplumsal istatistiklerde de sık görülür. Belki de basitçe %30'luk kesimin akıl yürütme becerisi zayıftır
    • Ama soruda “Arabamı yıkatmak istiyorum. Oto yıkama 50 m uzakta.” ifadesi de var. Yani bilgi yeterince açık verilmiş
    • Rapidata gibi hizmetler Mechanical Turk benzeriyse, yanıtlayanlar soruyu düzgün okumamış da olabilir
    • Sorun, “Arabamı yıkatmak istiyorum” şeklindeki ilk cümlenin gözden kaçırılmasıydı
  • Sonnet 4.6 modeline önce “bir zekâ testi yapılıyor” denirse %100 doğru cevap veriyor
    Model, insan sorularını gerçek durumlar olarak varsayma eğiliminde olduğundan, bunun bir test olduğunu açıkça söylemek hatayı azaltıyor
    Benzer bir durum kodlama ajanlarında da var. Soru başta anlamsız görünse bile kod dosyaları yüklenince anlaşılıyor

    • Bu problemin özü akıl yürütme/planlama başarısızlığı. Cevabı vermeden önce sonucu gözden geçirme eğilimi olmamasından kaynaklanıyor
      Gerçek problem çözmede de (ör. yazılım tasarımı) bu tekrar tekrar görülüyor.
      LLM'ler hâlâ örüntü eşleştirmeye dayanıyor ve sonucun anlamını analiz etmiyor
    • İlginç bir deney yaptım: ipucunu öne koyunca 3/3 doğru, sona koyunca 1.5/3, ipucu olmayınca 0/3 oldu
    • Bu bir ilgililik problemi. “Test yapılıyor” ifadesi, “bağlama güvenme” şeklinde bir sinyal işlevi görüyor
      Model normalde sorunun gerçek bir durum olduğunu varsaydığı için, bu tür örtük sinyalleri öğretmek doğruluğu artırabilir ama kullanışlılığı azaltabilir
    • Sadece “Exam Question: {prompt}” eklemek bile ChatGPT'ye doğru cevabı verdiriyor. Ama Llama3.3 ya da gpt‑oss‑120b hâlâ başarısız oluyor
  • Sorunun sonuna “varsayımlarını kontrol et” ifadesini ekleyince modellerin çoğu doğru cevabı veriyor
    Tek bir basit ifadeyle hata ortadan kalkıyorsa, AI sağlayıcılarının bunu sistem prompt'una koymamasının sebebinin maliyet optimizasyonu olduğu tahmin ediliyor
    İlgili tartışma önceki yorumda özetlenmiş

    • Ben de Claude veya Codex ile çalışırken iş bittikten sonra “Gözden kaçırdığımız ne var?” diye sorunca ek iyileştirmeler geldiği oldu
  • Google aramasında gördüğüm “Car Wash Test” diyaloğu epey komikti
    Çoğu AI, “50 m ise yürü” diye cevap veriyor ama doğru cevap, “Arabayı oto yıkamaya götürmek gerektiği için araba kullanmalısın”
    Bu test, örüntü eşleştirme ile gerçek akıl yürütme arasındaki farkı gösteren bir örnek

    • LLM'ler bazen kelime sayısını doldurmaya çalışan lise kompozisyonları gibi gereksiz yere uzun oluyor
    • Google arama LLM'inin gerçekten akıllanıp akıllanmadığını mı, yoksa sadece en yeni trendlere daha duyarlı hale gelip gelmediğini mi merak ediyorum
    • Gemini'nin cevabı da komikti. “Verimlilik ile mantık arasındaki ikilem” deyip, “Yürürsen sonra arabayı almaya geri gelmen gerekir, dolayısıyla araba kullanmak doğru” diye açıklıyordu
    • Eskiden LLM'lere tarih sorulunca eğitim verisinin tarihini söylerlerdi, şimdi ise gerçek tarihi veriyorlar. Yani web aramasını kullanıyorlar
  • Rapidata üzerinden elde edilen insan ölçütünde %71,5 ‘araba kullan’ tercihi çıktı
    Doğru cevap, “Araba nerede?” diye soran bir netleştirme sorusu olmalı.
    Ama ChatGPT'ye “Arabam oto yıkamadan 50 m uzakta” denince bile yine yanlış cevap veriyor

    • “Araba nerede?” ifadesi bir netleştirme sorusu değil; zaten sunulmuş seçeneklerin içinde yer alan bir varsayım
    • Rapidata yanıtlayıcılarının %30'u bot da olabilir
    • Rapidata, 3 binden fazla uygulamaya entegre ve 10 milyondan fazla kullanıcı katılıyor. Dünyanın 160 ülkesinden gerçek zamanlı yanıt alıyor
    • “Yerinden kıpırdama, oto yıkamayı çağır” gibi yaratıcı bir alternatif de var. En azından arabayı bırakıp yürümekten daha mantıklı
    • Claude, “200 m uzaktaki servise bujiyi değiştirmek için gideceğim, yürüyeyim mi?” sorusuna da “yürü” diye cevap veriyor. Yani sorun bağlamın çökmesi
  • Bu soru basit değil. Zeki bir insan, neden böyle bir soru sorulduğunu, bağlamda eksik bir şey olup olmadığını düşünür
    Bu yüzden doğru cevap “araba kullan” ya da “yürü” değil, “soruyu netleştir” de olabilir

    • Biraz ek bağlam vermek bile model performansını ciddi biçimde artırıyor. Örneğin “Oto yıkama, bir arabanın içinden geçmesi gereken bir yapıdır” gibi somutlaştırılabilir
      İlgili örnek Rain‑x araç yıkama sıvısı görseli
    • Bu tür sorular o kadar barizdir ki insanlar bir tuzak olabileceğinden şüphelenir
    • LLM'ler hemen cevap vermeye çalışır ama insanlar önce netleştirme sorusu sorar
    • Aslında bu, biraz da İngilizcedeki ifade alışkanlıklarıyla ilgili bir mesele gibi. “Nereye gitmek istediğini söylemen lazım ki yardımcı olabileyim” tarzı bir tepki doğal geliyor
    • Çoğu insan “Arabayla mı?” deyip şaka herhalde diye geçer
  • Sonnet 4.6 modeli sağduyu puanında yüksek, ama Opus'tan küçük
    Opus 4.6 Extended Reasoning modunda “yürü” diye cevap verdi, ama yazara göre kendisi 10/10 doğru sonuç aldı.
    Muhtemelen uygulamanın bellek özelliği prompt'a otomatik ekleme yaparak akıl yürütmeyi bozdu. Bellek ve biyografi bilgileri kapatılınca cevap “araba kullan”a dönüyor
    Yani gizli ön prompt'lar modelin akıl yürütmesini çarpıtabiliyor

    • Ben de Opus 4.6'yı çıktığı gün test ettim, yine başarısızdı. Ücretli abonelerde bile model kalitesi farkı var
    • Opus 4.6'nın model kartına göre, aşırı akıl yürütme çabası yüzünden yanlış cevabı rasyonalize etme durumu görülebiliyor. RL eğitimi sırasında aşırıya kaçılmış gibi
    • Sonnet 4.6 dahil 9 Claude modeli test edilmiş; sonuçlar bağlantı galerisinde görülebilir