- 53 büyük AI modeli üzerinde yapılan testin sonucu, çoğunun temel akıl yürütmede başarısız olduğunu gösteriyor
- Doğru cevap ‘arabayla gitmek’ olsa da 53 modelden 42’si ‘yürümek’ seçeneğini tercih etti
- Claude Opus 4.6, Gemini 3 serisi, Grok-4 gibi yalnızca 5 model, 10 tekrarlı testte de %100 tutarlı doğru cevap verdi
- GPT-5, 10 denemenin yalnızca 7’sinde doğru yanıt vererek ortalama insan doğruluk oranına (%71,5) benzer bir seviyede değerlendirildi
- Deney, AI’nin tutarlı akıl yürütme yeteneğindeki eksikliği ve bağlam temelli muhakemenin sınırlarını ortaya koyarken, bunu tamamlamak için ‘context engineering’in önemini vurguluyor
Oto yıkama testine genel bakış
- Test, “Oto yıkama 50 metre uzaktaysa yürür müsün, arabayla mı gidersin?” sorusundan oluşuyor
- Doğru cevap ‘arabayla gitmek’; çünkü arabayı yıkatmak için aracın oto yıkamada olması gerekir
- 53 model, Opper’ın LLM Gateway sistemi üzerinden aynı koşullarda değerlendirildi
- Sistem prompt’u olmadan,
walk veya drive seçeneklerinden birini zorunlu olarak seçmeleri istendi
- Her model için önce 1 test yapıldı, ardından tutarlılığı doğrulamak için 10 tekrarlı test uygulandı
İlk tek çalıştırma sonuçları
- 53 modelden yalnızca 11’i doğru cevap verdi (drive), 42 model ise yanlış cevap verdi (walk)
- Doğru cevap veren modeller: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, GPT-5, Grok-4, Grok-4-1 Reasoning, Sonar, Sonar Pro, Kimi K2.5, GLM-5
- Anthropic, OpenAI, Google, xAI, Perplexity, Meta, Mistral gibi büyük aileler arasında performans farkı görüldü
- Anthropic: 1/9 (yalnızca Opus 4.6 doğru)
- OpenAI: 1/12 (yalnızca GPT-5 doğru)
- Meta(Llama), Mistral, DeepSeek gibi aileler ise tamamen başarısız oldu
- Yanlış cevapların çoğu, “50 metre kısa bir mesafe, bu yüzden yürümek daha verimli” şeklindeki mesafe odaklı sezgisel hatadan kaynaklandı
- Bazı modeller doğru cevabı verse de mantıksız gerekçeler sundu
- Örnek: Perplexity Sonar, “yürümek gıda üretimi enerjisini daha fazla tükettiği için aslında daha fazla kirlilik yaratır” iddiasında bulundu
İkinci aşama: 10 tekrarlı test
- Toplam 530 çağrının sonucunda, tutarlı doğru cevap oranı daha da düşük çıktı
- 10/10 doğru cevap veren modeller (5 adet): Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro, Grok-4
- 8/10 doğru cevap veren modeller (2 adet): GLM-5, Grok-4-1 Reasoning
- GPT-5, 7/10 doğru yaptı; kalan 3 denemede yakıt verimliliği ve çevre mantığıyla yanlış cevap verdi
- 33 model, 10 denemenin tamamında yanlış cevap verdi; bunlara GPT-4.1, GPT-5.1, Llama, Mistral de dahil
- Bazı modeller ilk denemede doğru cevap vermiş olsa da tekrar testlerinde sonuçlar kararsız kaldı
- Sonar: 1 kez doğru → 10 denemenin tamamında yanlış
- Kimi K2.5: 5 kez doğru, 5 kez yanlış
- GLM-4.7: 1 kez yanlış → 10 denemede 6 kez doğruya yükseldi
İnsanlarla karşılaştırma deneyi
- Rapidata platformu üzerinden 10.000 kişiye aynı soru yöneltildi
- %71,5’i ‘arabayla gitmek’ seçeneğini seçti ve bu oran ortalama insan doğruluk seviyesi olarak belirlendi
- GPT-5’in %70 doğruluk oranı, insan ortalamasına benziyor
- 53 model arasında yalnızca 7 model insan ortalamasını aştı; kalan 46 model ise insanlardan daha düşük performans gösterdi
Dikkat çeken akıl yürütme örnekleri
- GLM-4.7 Flash: “Yürürsen arabayı itmen ya da taşıman gerekir, bu yüzden mümkün değil” diyerek net bir mantık sundu
- Claude Sonnet 4.5: “Eğer bu bir otomatik oto yıkamaysa arabayla gitmek gerekir” sonucunu fark etti, ama son cevap olarak yine ‘walk’ seçti
- Gemini 2.5 Pro: Doğru cevap verdiğinde “arabayı yıkatmak için oto yıkamada olması gerekir” diye isabetli bir açıklama yaptı; yanlış cevap verdiğinde ise “50 metre kısa mesafe” mantığını kullandı
AI güvenilirliği sorunu
- Yalnızca tek bir mantık adımı gerektiren basit bir problem olmasına rağmen 53 modelden sadece 5’i tamamen doğru çıktı
- Başarısızlık türleri üçe ayrılıyor
- Her zaman yanlış (33 model): mesafe odaklı sezgisel yaklaşıma saplanıp kalıyor
- Bazen doğru (15 model): akıl yürütme yeteneği var ama tutarlılık yok
- Her zaman doğru (5 model): bağlamsal muhakeme, sezgisel kısayolu istikrarlı biçimde aşıyor
- Bu kadar basit bir soruda bile modellerin %90’ının başarısız olması, gerçek iş mantığında veya çok adımlı akıl yürütmede ortaya çıkabilecek riske işaret ediyor
Context engineering’in rolü
- Bu test, ‘sıfır bağlam’ ortamında yapıldı ve modelin saf akıl yürütme kapasitesini ölçmeyi amaçladı
- Birçok modelin başarısız olmasının nedeni, sezgisel kısayolların bağlamsal muhakemeye baskın gelmesi
- Context engineering, örnekler, alan kalıpları ve ilgili bilgiler sağlayarak bu tür hataları azaltıyor
- Opper’ın ayrı bir deneyinde, küçük bir açık modele bağlam eklendiğinde %98,6 maliyet tasarrufuyla büyük model seviyesinde kalite elde edildi
- Oto yıkama sorusu basit olsa da gerçek işler belirsizlik ve alan bilgisi gerektirdiğinden, bağlam tasarımı kritik önem taşıyor
Deney metodolojisi
- Tüm modeller, Opper LLM Gateway üzerinden aynı prompt ile test edildi
- “I want to wash my car. The car wash is 50 meters away. Should I walk or drive?”
- Sistem prompt’u yoktu;
drive veya walk seçeneklerinden birini seçmeleri zorunlu tutuldu
- Tek çalıştırma (1 kez) ve 10 tekrarlı test (toplam 530 çağrı) yapıldı; tüm çağrı log’ları kaydedildi ve akıl yürütme metinleri saklandı
- İnsan karşılaştırma grubu için Rapidata üzerinden aynı formatta 10.000 kişilik bir anket yapıldı
- Tüm veriler JSON formatında kamuya açıldı
- Tek çalıştırma sonuçları, 10 tekrarlı sonuçlar ve insan sonuçları ayrı ayrı indirilebiliyor
3 yorum
Gemini Pro ise,
Arabayı götürebiliyorsan yürüyerek de gidebileceğini diye cevap verince buna bayağı gülmüştüm.
Esprili bir yanıt olmuş haha
Hacker News görüşleri
İnsanların verdiği yanıtların ChatGPT ile birebir aynı çıkması ilginç
Pratikte bu, “insan yanıt hizmeti”nin fiilen öldüğü anlamına geliyor gibi görünüyor. Sonuçta insanlar, kaliteye bakmaksızın işi AI'a yıkmanın bir yolunu bulacaktır
Rapidata, Duolingo ya da oyun uygulamaları gibi yerlere reklam yerine katılım sağlamak için mikro anketler entegre ediyor. Kullanıcılar doğrulanmış kişiler ve doğru cevabı verme yönünde bir teşvikleri yok
Yukarıdaki yorumdaki gibi temelsiz bir özgüvenle sonuca varmak ilginç bir olgu
Ben, ‘misguided attention’ türü sorulardan oluşan kişisel bir değerlendirme seti tutuyorum
Bu problemlerin özü mantık hatası değil, muğlaklık ve bağlam eksikliği. İnsanlar örtük varsayımları doldurur ama modeller bunu yapamaz
“AI bu kadar basit soruları bile yanlış yapıyor” örneklerinin çoğu, istatistiksel önyargıyı tetikleyecek şekilde tasarlanmış cümlelerdir. Bağlamı biraz değiştirince sonuç tersine döner
Yani modelin başarısızlığı, akıl yürütme yeteneğinin yokluğundan değil, çerçevelemeye duyarlılıktan kaynaklanıyor
İnsanlar için %71,5'lik oran, problemin muğlaklığını gösteriyor
“Oto yıkamaya yürür müsün, arabayla mı gidersin?” sorusu, “Bu kadar kısa mesafe için gerçekten araba kullanmak gerekir mi?” diye yorumlanabilir. Yani bu basit bir mantık problemi değil, edimbilimsel yorumlama problemi
İnsanlar, sorunun gerçek bir durumdan çıktığını varsayıyor ve işbirlikçi konuşma ilkelerine, yani Grice'ın işbirliği ilkesine göre yorumluyor.
Bu yüzden “Bu bir tuzak soru galiba” diye fark edene kadar “Demek ki yürümek için bir sebep var” diye düşünüyorlar
Sonnet 4.6 modeline önce “bir zekâ testi yapılıyor” denirse %100 doğru cevap veriyor
Model, insan sorularını gerçek durumlar olarak varsayma eğiliminde olduğundan, bunun bir test olduğunu açıkça söylemek hatayı azaltıyor
Benzer bir durum kodlama ajanlarında da var. Soru başta anlamsız görünse bile kod dosyaları yüklenince anlaşılıyor
Gerçek problem çözmede de (ör. yazılım tasarımı) bu tekrar tekrar görülüyor.
LLM'ler hâlâ örüntü eşleştirmeye dayanıyor ve sonucun anlamını analiz etmiyor
Model normalde sorunun gerçek bir durum olduğunu varsaydığı için, bu tür örtük sinyalleri öğretmek doğruluğu artırabilir ama kullanışlılığı azaltabilir
Sorunun sonuna “varsayımlarını kontrol et” ifadesini ekleyince modellerin çoğu doğru cevabı veriyor
Tek bir basit ifadeyle hata ortadan kalkıyorsa, AI sağlayıcılarının bunu sistem prompt'una koymamasının sebebinin maliyet optimizasyonu olduğu tahmin ediliyor
İlgili tartışma önceki yorumda özetlenmiş
Google aramasında gördüğüm “Car Wash Test” diyaloğu epey komikti
Çoğu AI, “50 m ise yürü” diye cevap veriyor ama doğru cevap, “Arabayı oto yıkamaya götürmek gerektiği için araba kullanmalısın”
Bu test, örüntü eşleştirme ile gerçek akıl yürütme arasındaki farkı gösteren bir örnek
Rapidata üzerinden elde edilen insan ölçütünde %71,5 ‘araba kullan’ tercihi çıktı
Doğru cevap, “Araba nerede?” diye soran bir netleştirme sorusu olmalı.
Ama ChatGPT'ye “Arabam oto yıkamadan 50 m uzakta” denince bile yine yanlış cevap veriyor
Bu soru basit değil. Zeki bir insan, neden böyle bir soru sorulduğunu, bağlamda eksik bir şey olup olmadığını düşünür
Bu yüzden doğru cevap “araba kullan” ya da “yürü” değil, “soruyu netleştir” de olabilir
İlgili örnek Rain‑x araç yıkama sıvısı görseli
Sonnet 4.6 modeli sağduyu puanında yüksek, ama Opus'tan küçük
Opus 4.6 Extended Reasoning modunda “yürü” diye cevap verdi, ama yazara göre kendisi 10/10 doğru sonuç aldı.
Muhtemelen uygulamanın bellek özelliği prompt'a otomatik ekleme yaparak akıl yürütmeyi bozdu. Bellek ve biyografi bilgileri kapatılınca cevap “araba kullan”a dönüyor
Yani gizli ön prompt'lar modelin akıl yürütmesini çarpıtabiliyor