- LLM’lere yönelik mantık tuzağı sorusu. Birçok model, arabanın oto yıkamaya götürülmesi gerektiği varsayımını kaçırıp yürü diyor
- ChatGPT, Claude, Deepseek, Qwen gibi tanınmış çeşitli modeller farklı yanıtlar ve mantık hataları gösteriyor
- Bu örnek, LLM’lerin sağduyuya dayalı akıl yürütme sınırlarını ve tutarsızlığını ortaya koyuyor
50 metre oto yıkama problemi ve LLM tepkileri
- Soru, “Oto yıkama 50 metre uzaktaysa yürür müsün, sürer misin?” şeklinde; arabanın oto yıkamaya götürülmesi gerektiği temel varsayımını test ediyor
- Perplexity : "50 m kadar kısa bir mesafe olduğu için yürürdüm. Arabayı bu kadar kısa mesafede hareket ettirmek verimsizdir"
- ChatGPT 5.2 : "50 m ise yürümek daha pratiktir. 30-40 saniyede gidilir. Hava kötüyse ya da ağır bir şey varsa sürerdim, onun dışında yürümek daha basit ve mantıklı"
- Claude : "50 m ise yürürdüm. Sürmek saçma olur. Arabayı vitese takmadan önce bile frene basman gerekir. 30-45 saniye sürer ve park etmeye de gerek yok"
- DeepSeek : "Yürürsen geri dönüp arabayı kullanman gerekir. Rahatlık için sür, çevre için yürü (sonra yine süreceksin)"
- Qwen3-Max : "Kesinlikle yürümelisin. Kısa mesafe sürüş çevre için de iyi değil. Yürümek egzersiz de olur"
Kullanıcı tepkileri ve yorumlar
- “Yürümek için arabayı da yanında taşıman gerekir”
- “Deepseek en azından arabayı oto yıkamaya götürmek gerektiğini fark etmiş”
- Gemini ve ChatGPT bazen sorudaki tuzağı fark edip doğru yanıtı verebiliyor
- “50 m hortum mu gerekir?” sorusuna GPT-OSS, “25 m yeter” diye yanıt veriyor
- “Bu, ‘geliştiricinin market alışverişi problemi’ ile aynı”
10 yorum
Gemini 3.1 arabayla git diyor
chatgpt 5.2 ise yürümenin daha mantıklı olduğunu söylüyor.
Test edince sonuç böyleymiş
Gemini 3.0 Pro (Google AI Studio)
Elbette arabayla gitmelisiniz! 😄
Arabayı yıkatmak için aracın oto yıkamada olması gerekir. Yürüyerek giderseniz oto yıkamaya sadece siz varmış olursunuz; asıl yıkanması gereken araba ise başlangıç noktasında olduğu gibi kalır.
50 metre çok kısa bir mesafe ama aracı güzelce yıkatmak istiyorsanız arabayla gidin!
Claude 4.5 Genişletilmiş
50 metre gerçekten çok yakın bir mesafe!
Arabayı yıkatmaya gidiyorsanız arabayla gitmeniz doğru olur. Sonuçta arabayı oto yıkamaya götürmeniz gerekiyor.
50 metre kadar bir mesafe için:
Eğer oto yıkamanın açık olup olmadığını kontrol etmek için gidiyorsanız yürüyüp kontrol ettikten sonra arabayı getirebilirsiniz; ancak genel olarak doğrudan arabayla gitmeniz yeterlidir.
ChatGPT 5.2 Thinking ağır mod
Arabayı yıkatmak için arabanın oto yıkamada olması gerektiğinden, genelde 50 m'yi arabayla gitmek doğru olur. (Yürüyerek giderseniz sadece siz gitmiş olursunuz, bu yüzden araba yıkanamaz.)
Yine de istisna olarak şöyle ayırmak daha net olur.
Sonuç: Soru tam olarak bu şekildiyse arabayla gidin. 50 metre için yakıt/zaman farkı da neredeyse yoktur ve ekipman ya da eşya (oto yıkama malzemeleri) taşıma ihtiyacı da azalır.
Cümlenin kendisinde yürüyerek gitmenin daha mantıklı olduğuna dair bir nüans var. Tıpkı ehliyet yazılı sınavı gibi.
Düşünce zincirinin (chain of thought) çıkarım (inference) ya da mantıksal düşünmeyle (reasoning) aynı şey olduğu iddia ediliyorsa, bu biraz abartı olmaz mı?
> 50 metre ise yürüyerek 1 dakikadan kısa sürecek bir mesafe, ama arabayla gitmek gerekir. Sonuçta arabayı yıkamaya gidiyorsun, yani arabayı götürmen lazım! 😄
Opus 4.6!
GPT 5.2 (Instant), kullandıkça küçük bir model olduğu çok belli oluyor. Hiç güven vermez hale geldiği için en sıradan sorgularda bile mecburen Thinking modelini kullandırıyor...
GPT-5.2 yanıtı:
Thinkingile sorsam da yürümemi söylüyor.Yürü. 50 metre çok kısa bir mesafe; arabayı çalıştırma, manevra yapma ve park etme süresini hesaba kattığında araba kullanmak yürümekten daha uzun sürer ve gereksiz motor aşınması ile emisyona yol açar. Yalnızca belirli bir nedenin varsa araba kullan (taşınacak ağır eşyalar, hareket kısıtlılığı, şiddetli hava koşulları veya kaldırım olmaması/trafik gibi güvenlik endişeleri).
Hacker News görüşleri
Birkaç LLM'i test ederek onların "zekâ sınırını" anlamaya çalışıyorum
Sonnet, Opus 4.5 ve Gemini 3 Pro'nun hepsi "araba kullanmalısın" diye yanıt verdi, ama OpenAI 5.2 reasoning "yürü" dedi
Bu yüzden "araba evde ve oto yıkama 50 m uzakta" diye açıkça belirtince, GPT 5.2 "araba kullan, ama mesafe kısa olduğu için yavaş ve dikkatli git" diye yanıt verdi
Yani sonuç olarak açık bağlam vermek önemli
Arabanın yerini ima etmeden testi bozmamak zor, ama Claude Opus 4.6 doğru şekilde "araba kullanmalısın" dedi
"Alice işten çıkınca arabayla eve gelip belgeleri alacak ve 100 m uzaktaki tamirciye gitmesi gerekecekse?" → cevap "arabayla gitmek"
İnsanlar için atlanabilir olan bilgi, model için zorunlu olabiliyor
Bu kadar basit bir örnekte bile daha karmaşık durumlarda neden başarısız olduğunu izlemek zorlaşıyor
Daha çok "walk or drive for <short distance>" ifadesinin eğitim verisinde 'walk' ile güçlü biçimde ilişkili olmasından kaynaklanıyor gibi görünüyor
Prompt'u uzatıp bağlamın ağırlığını değiştirince doğru cevabın çıkmasının nedeni de bu
Bu tartışma zaten Matt Shumer'in blog yazısında ele alınmıştı
Ücretsiz/ücretli model farkı, model seçimi gibi çeşitli noktalar derlenmiş durumda
"İnsanlara böyle soru sorulmaz" diyen çok, ama gerçekte insanlar da sık sık muğlak sorular soruyor
LLM'lerin bu tür soruları da doğru yorumlaması gerekiyor
"Prompt'u iyi yazmak gerekir" sözü, AntennaGate sırasında söylenen "telefonu yanlış tuttunuz" tarzı bir sorumluluktan kaçma gibi geliyor
Gemini fast, buna "verimlilik vs mantık" ikilemi olarak yaklaştı
"Arabayı yıkatmak için sonuçta arabayı götürmen gerekir" diye net cevap verdi
Ama "parfüm almaya gidiyorsan veya sırayı kontrol edeceksen yürüyebilirsin" diyerek koşullu istisnalar sundu
Bu hile TikTok'ta popüler oldu ve şimdi patch edildi
Benzer sonuç almak için artık "45 m" diye sormak gerekiyor
Yeni trend ise "ters çevrilmiş cam bardak" problemi (https://www.tiktok.com/t/ZP89Khv9t/)
Farklı prompt varyasyonları denenince, modelin önce "walk" seçeneğini seçip sonra gerekçeyi sonradan uydurma/rasyonelleştirme eğilimi gösterdiği görüldü
Ama "cevaplamadan önce gerekli koşulları açıkla" denince,
"Arabayı yıkatmak için oto yıkamaya götürmek gerekir, dolayısıyla araba kullanmalısın" sonucuna ulaşıyor
Yani 'düşünme sürecini zorlamak' daha mantıklı cevap üretiyor
Bu, insanların System-1 vs System-2 düşünmesine benziyor
Model sağlayıcılarının bunu varsayılan prompt'a koymamasının nedeni büyük olasılıkla token maliyetini düşürmek
En yeni modellerin çoğu artık bu testi geçiyor
Yine de "çoğu oto yıkamada araba bulunması gerekir" gibi temkinli ifadeler kullanma eğilimindeler
Bu tür muğlaklık AI'ın riskini gösteriyor
Tıp alanında da benzer sağduyuya dayalı akıl yürütme hataları yaşanıyor
Örneğin kolları olmayan bir çocuğun tansiyonunun alından ölçülmesi gerektiği gibi yanlış bir sonuca varılan vaka (https://www.nature.com/articles/s41598-025-22940-0)
Doğru cevap "intravenöz sıvı vermeye başla" idi
Sadece "kitap öğrenmesi" ile buraya kadar gelmiş olması bile etkileyici
Bir sonraki adım muhtemelen tıbbi simülatör tabanlı eğitim olacak
Çeşitli yapay zekâların cevap verip, insanın çapraz doğrulama yapması gerçekçi çözüm gibi görünüyor
Bu tür soruları seviyorsanız SimpleBench ilginç gelebilir
Yüzeyde ders kitabı sorusu gibi görünse de, aslında çoğu sağduyulu yargı gerektiriyor
Basit dil kalıplarına aldanmadan insani sezgiyi devreye sokma becerisini ölçen bir benchmark
Bazıları aynı
"Araba yıkatacağım ama oto yıkama 50 metre uzaktaysa yürür müsün, arabayla mı gidersin?"
sorusunda yine başta yürümek gerektiğini söyledi, ama
düşünme modunu açınca
şartlara göre ya da arabayı yıkatmak için arabayı götürmek gerektiğini söylüyorlar.
Bir tane daha makul olan şey ise şuydu:
Ben bile o soruyu sorarken oto yıkamaya neden gidildiğini düşünmeden sordum ama
cevapların bir kısmı
"Oto yıkamaya gitme amacı araca bir şeyler satın almak mı?" diye geri sordu.
Metindeki soruyu olduğu gibi kopyaladım ama
nesne yok..
Ve gerçekten de
insanlar kafalarındaki amaç ya da özneyi atlayıp
karşı tarafa aktarır
ve iyi anlaşılmayı umar;
karşı taraf ise düşünce odağına göre
niyetten farklı anlayıp
farklı davranır....
Eğer sorun gerçekten o cümlenin kendisiyse
insanlarda da öznel yargıya göre değerlendirme değişir, bu yüzden..
AI'ın cevabına hayal kırıklığıyla bakmaktansa
açık talimat vermek ve özneyle nesneyi netleştirmek gerektiği, insanlar arasında da aynı olduğundan,
belirsiz bir prompt ile
beklenen en yüksek değeri elde edemeyip
hala AI için erken olduğunu ya da yanlış cevap verdiğini söyleyen insanlar aklıma geliyor.
👍👍👍