Basit Bir Görev, En Yeni LLM’lerde Muhakeme Çöküşünü Gösteriyor

(arxiv.org)

3 puan yazan GN⁺ 2024-06-06 | 1 yorum | WhatsApp'ta paylaş

Kısa bir AIW problemi bile GPT-4, Claude 3 Opus gibi en yeni LLM’lerin genelleme ve temel muhakeme yeteneklerini ciddi biçimde sarsabiliyor
Problem “Alice has N brothers and M sisters. How many sisters does Alice’s brother have?” biçiminde; doğru cevap Alice ile Alice’in kız kardeşlerinin toplamı olan M+1
N, M ≤ 7 için doğal varyasyonlar yapıyı ve zorluğu değiştirmiyor; ancak GPT-4 örneğinde 3. varyasyonda doğruluk oranı 0’a yakınken 4. varyasyonda 1’e yakın performans dalgalanması görülüyor
Düşünce zinciri yönlendirmesi (chain-of-thought), yeniden gözden geçirme, öz doğrulama ve çok turlu etkileşim başarısızlığı istikrarlı biçimde düzeltemedi; yanlış cevaplara sıkça makul görünen açıklamalar ve aşırı güven eşlik etti
AIW Light kontrol problemlerinin sonuçları, başarısızlığı yalnızca dil ayrıştırma, aile ilişkilerini anlama, cinsiyet özelliği bağlama ve temel aritmetikle açıklamanın zor olduğunu gösteriyor; mevcut standart benchmark’ların genelleme kusurlarını yakalama gücünü yeniden değerlendirmek gerekiyor

AIW problemiyle ortaya çıkan basit muhakeme başarısızlığı

LLM’ler MMLU, HellaSwag, ARC, MATH, GSM8k gibi standart benchmark’larda yüksek puanlar alarak genelleme ve muhakeme yeteneklerinin güçlü olduğu şeklinde değerlendirildi
Bu değerlendirme, karmaşık benchmark’lar yerine insanların kolayca çözebileceği kısa sağduyu problemlerinde de aynı yeteneklerin korunup korunmadığını kontrol ederek sınandı
AIW problem şablonu şöyle
- “Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?”
- Tüm kardeşlerin aynı ebeveynleri paylaştığı varsayılır
- Alice’in erkek kardeşinin sahip olduğu kız kardeş sayısı, Alice’in kendisi ile Alice’in kız kardeşlerinin toplamı olan M+1’dir
Problem varyasyonları N, M ≤ 7 doğal sayıları değiştirilerek oluşturulur; yapı ve zorluk korunur
- Variation 1: Alice has 3 brothers and 6 sisters → doğru cevap 7
- Variation 2: Alice has 2 sisters and 4 brothers → doğru cevap 3
- Variation 3: Alice has 4 sisters and 1 brother → doğru cevap 5
- Variation 4: Alice has 4 brothers and 1 sister → doğru cevap 2

Varyasyona göre ciddi biçimde dalgalanan doğruluk oranı

Test edilen en yeni LLM’ler, AIW problemi ve yapıyı koruyan varyasyonlarda düşük ortalama doğruluk oranı ve büyük dalgalanmalar gösterdi
GPT-4 (gpt-4-0613), her varyasyon için 60 deneme yapıldığında problemdeki sayılara göre sonuçlarda büyük farklar gösterdi
- Variation 3’te doğruluk oranı 0’a yakın
- Variation 4’te doğruluk oranı 1’e yakın
- Aynı olgu STANDARD, THINKING, RESTRICTED prompt türlerinin tamamında görüldü
Problem çözümüyle ilgisiz sayı değişiklikleri bile performansı sarstığı için bu durum sağlamlık eksikliği ve genelleme kusuru olarak yorumlanıyor
Yeni muhakeme modellerinden DeepSeek-R1 ve o1-mini de AIW problem sürümlerinde güçlü performans dalgalanması göstererek aynı kırılganlığı sergiledi
GPT-4/4o, Claude 3 Opus/Claude 3.5 Sonnet, Qwen 2.5 72B, Llama 3.1 405B gibi büyük modellerde doğruluk oranı 0’dan yüksek ve doğru cevap çıktılarında çoğu zaman doğru muhakeme görülebiliyor
- Ancak doğru muhakemenin sıklığı, doğal ve yapıyı koruyan varyasyonlara göre büyük ölçüde değişiyor
- Temel nokta muhakemenin tamamen yokluğu değil, muhakemenin kırılgan ve kolayca bozulabilir olması

Kontrol problemleriyle elenen basit nedenler

Başarısızlığın doğal dil ayrıştırma, sayı işleme, aile ilişkilerini anlama, özellik bağlama, temel aritmetik gibi düşük seviyeli sorunlardan kaynaklanıp kaynaklanmadığını kontrol etmek için AIW Light kontrol problemleri oluşturuldu
AIW Light Arithmetic Siblings, “Alice has N brothers and M sisters. How many siblings does Alice have?” biçimindedir
- Doğru cevap N+M
- Aile ilişkisini kavrayıp verilen erkek ve kız kardeş sayılarını toplamak yeterlidir
- Orijinal AIW’den farklı olarak Alice’i kız kardeş kümesine dahil eden küme işlemi veya cinsiyet özelliği bağlama gerekmez
AIW Light Family, “How many brothers does Alice’s sister have?” sorusunu soran biçimdedir
- Doğru cevap N
- Yalnızca temel aile ilişkisi ve “Alice’s sister” varlığını anlamak gerekir
- Aritmetik veya küme işlemi gerekmez
AIW Light Arithmetic Total Girls, “How many girls are there in total?” sorusunu soran biçimdedir
- Doğru cevap, orijinal AIW ile aynı olan M+1
- Alice’in kadın olduğu özelliği, kız kardeşlerin cinsiyeti ve toplam kız sayısının toplanması gerekir
- Orijinal AIW’den farklı olarak Alice’i erkek kardeşin kız kardeş kümesine atayan küme işlemi gerekmez
Kontrol problemlerinin sonuçları, orijinal AIW başarısızlığının yalnızca basit tokenizasyon, doğal dil ayrıştırma, temel aile yapısı, özellik bağlama ve ilkokul düzeyi aritmetik sorunlarıyla açıklanmasının zor olduğuna işaret ediyor

Prompt’lar ve değerlendirme prosedürü

Deneylerde prompt engineering etkisini kontrol etmek için üç ana prompt türü kullanıldı
- STANDARD: Nihai cevabın doğal sayı formatında verilmesini ister
- THINKING: Dikkatlice düşünmeye yönlendirerek chain-of-thought tarzını teşvik eder
- RESTRICTED: Nihai cevap olan doğal sayı dışında hiçbir şey yazılmamasını sınırlar
THINKING v2, THINKING’e “step by step” ifadesinin eklendiği küçük bir varyasyondur ve kontrol deneylerinde THINKING ile eşdeğer performans örüntüsü gösterdi
Her girdi <problem varyasyonu> <prompt türü> biçimindedir; model yanıtından nihai cevabı kolayca ayrıştırmak için ### Answer: formatı istendi
- Modeller bu format talimatını izleyebildi
- Format talimatı olmayan kontrol deneyleri de yapıldı ve gözlenen davranışın bu formata bağlı olmadığı doğrulandı
Her model, problem varyasyonu ve prompt türü kombinasyonu için en az 30 deneme toplandı
- Doğruluk durumu Bernoulli denemesi olarak yorumlandı
- Doğruluk oranı tahmini başarı oranı X/n ile hesaplandı
- p olasılığının ortalaması ve varyansı tahmin edildi; performans dağılımını görselleştirmek için Beta dağılımı parametreleri kullanıldı
Model seçimi, güçlü genelleme ve muhakeme yeteneği iddia eden, standart benchmark ve leaderboard’larda üst sıralarda yer alan SOTA LLM’leri hedefledi
- Mümkün olduğunda aynı model ailesi içinde küçük ölçekten büyük ölçeğe kadar modeller dahil edildi
- API erişimi veya vLLM tabanlı yerel dağıtım kullanıldı
- Deneylerde liteLLM ve TogetherAI kullanıldı
- Ham yanıt verileri, doğruluk oranı tahminleri ve deney rutinleri, tekrarlanabilirlik ve topluluk doğrulaması için yayımlandı

Yanlış cevaplarda aşırı güven ve benchmark’ların yeniden değerlendirilmesi

Doğruluk oranı düşük AIW varyasyonlarında çıktı doğal sayı dağılımının tepe noktası yanlış cevaplarda yoğunlaşabiliyor; bu da basit çoğunluk oylamasıyla çözmeyi zorlaştırıyor
Yanlış cevaplara çoğu zaman makul görünen açıklamalar eşlik ediyor
- Model, yanlış nihai cevabı destekleyen ikna edici cümleler üretiyor
- Cevabın doğru olduğundan emin bir ton da görülüyor
- Kullanıcının doğru cevabı kolayca doğrulayamadığı durumlarda bu tür yanıtlar kullanıcıyı yanlış cevaba yönlendirebilir
Çok turlu etkileşim ve öz doğrulama deneylerinde de modeller hatalarını gerektiği gibi tespit etmekte veya yanlış cevapları düzeltmekte başarısız oldu
Düşünce süreci yönlendirmesi, yeniden gözden geçirme isteği, çok aşamalı yeniden değerlendirme gibi standart müdahaleler AIW problemindeki doğruluk oranı dalgalanmalarını ve başarısızlığı istikrarlı biçimde düzeltemedi
Standart benchmark’larda yüksek puan alan modellerin basit AIW varyasyonlarında 0’a yakın doğruluk oranı göstermesi mümkün olduğundan, mevcut değerlendirme prosedürleri genelleme ve muhakeme kusurlarını gerektiği gibi yakalayamıyor
Mevcut SOTA LLM’lerin yeteneklerinin yeniden değerlendirilmesi gerekiyor; bu tür kusurları yakalayabilecek yeni standart benchmark’lara ihtiyaç var

1 yorum

GN⁺ 2024-06-06

Hacker News yorumları

Makaleyi okuyup okumamayı düşünenler için: PDF uzun görünse de metnin özü ilk 10 sayfa civarında, bu yüzden oldukça hızlı okunabiliyor
Burada kullanılan örnekler insanlar için görece basit, ancak bir an durup düşünmezseniz yanlış sonuca atlamak kolay
Asıl rahatsız edici olan, mevcut araçların doğasına bakınca bunun gerçekçi biçimde düzeltilip düzeltilemeyeceğinin belirsiz olması. Bunlar hiçbir anlamda akıl yürütmüyor ya da düşünmüyor, ama buna rağmen pek çok kişi tarafından şimdiden genel amaçlı yapay zeka olarak kabul ediliyor
Çeşitli durumlarda akıl yürütüyormuş gibi ikna edici biçimde davranabilmeleri de abartı dalgasını körüklüyor. Bu makalenin yapay zeka lansmanları ve abartısı üzerinde gerçek bir etkisi olacak mı, yoksa Google aramasının çıkışında olduğu gibi riskler yeniden ortaya çıkana kadar gömülüp gidecek mi bilmiyorum
- Bir ölçüde karmaşık akıl yürütme için iç monolog ve yineleme gerekir. Tip 2 düşünmede, olası çözümler, argümanlar ve akıl yürütme yolları zihinde oluşturulup değerlendirilir; ardından uygun ya da doğru görülen seçilir
  Prompt ile bu iç düşünme süreci dışarı çekildiğinde bir kısmı taklit edilebilir, ancak gerçekte bunun içsel ve otomatik bir süreç olması gerekir
  Hâlâ yöntemini bilmememizin nedeni, iç düşünce sürecini kontrol etmenin mutlaka dil temelli olmaması ve biyolojik beynin iç düşünce süreçlerinin doğrudan gözlemlenemediği için eğitim verisi olarak kullanılamamasıdır
  Günümüz LLM’leri davranışçılığa benzeyen yönler taşıyor; aslında bilişsel psikolojinin uygulanabileceği türden bir şeye ihtiyaç var gibi görünüyor: https://en.wikipedia.org/wiki/Behaviorism
- Oldukça basit bir çözüm olabilir. Modelin problemi Prolog gibi bir mantık diliyle yeniden kurmasını sağlamak ve basit zincirleme akıl yürütme eğitimi yerine o programı çalıştırarak cevabı üretmesini istemek
  İnsanlar da bir mantık modelini birdenbire ortaya çıkarmaz; yıllar süren ilköğretimden geçerek dünyayı anlamayı ve problem çözmeyi öğrenir
  Mantık programlama yaklaşımı umut verici görünüyor, ancak düzgün çalışması için LLM’e muazzam sayıda örnek yedirmek gerekir; şu anda böyle bir eğitim verisinin yeterli olup olmadığı da kesin değil
- Bu sistemleri eleştirel biçimde anlayıp kullanan biri için çoğunlukla fazlasıyla bariz bir konu. Kral çıplak demek için arxiv.org PDF’ine bile ihtiyaç duyulması moral bozucu
  LLM kullanan insanların çoğu isterse bunu hemen şimdi kendi başına doğrulayabilir
  Ancak kurumsal teknoloji propagandasının gücü o kadar büyük ki, birçok kişi aksine insanların zaten hiç kıyafet giymediğini iddia edecektir
- LLM’in ne olduğunu ciddi biçimde düşününce bunun genel amaçlı yapay zekaya varması mümkün görünmüyor. Aynı zamanda, hâlihazırda beklediğimizden çok daha fazla işi de başarıyor
  OpenAI’ın yaptıkları insanları öyle şaşırttı ki, şimdi yeterli hesaplama gücü ve doğru modelle AGI’ın ortaya çıkması için dua ediyor olabilirler
- Mesele, prompt olmadan insanların bu soruyu ne kadar sık yanlış yanıtladığı. IQ medyanı 100 ve mantık eğitimi olmayan ya da eğitim düzeyleri farklı insanları da dahil edersek, yazarların ima ettiği gibi insanlarda doğru yanıt oranının 1,0’a yakın olacağını sanmıyorum
  LLM’lerin hiç akıl yürütmediği oldukça açık olduğundan, LLM’lerin akıl yürütememesi şaşırtıcı değil
  Aksine, akıl yürütme yeteneği olmadığını düşününce akıl yürütme görevlerinde bu düzeyde performans göstermesi şaşırtıcı; doğal dil becerisi ile bilişim modellerinde genelde zor olan abdüktif çıkarıma benzer bir yeteneği birleştirince “GPT-4o etkileyici” sonucundan fazlasını çıkarmak zor
Soru şu: “Alice’in 60 erkek kardeşi ve 212 kız kardeşi var. Alice’in erkek kardeşinin kaç kız kardeşi vardır?” Makalede sayılar yerine X ve N ile ifade edilmiş
İtiraf etmek gerekirse, kendim çözerken yanlış yaptım ve doğru yanıtı ancak GPT-4o’ya girince doğruladım: https://chatgpt.com/share/6eb5fa36-e0fd-4417-87d1-64caf06c34...
Deney prompt’unda “doğru yanıt biçimi dışında hiçbir metin çıktısı verme” kısıtı olduğu için modelin sesli düşünmesini engellemiş gibi görünüyor. Bu ifadeyi ekleyince GPT-4o sürekli yanlış yapıyor: https://chatgpt.com/share/7e6a7201-dd2b-43c6-8427-76e5b003ca...
Daha karmaşık örneklerde GPT-4o çöküyor gibi görünüyor; ama o problemin gerçekten bu kadar basit olduğunu ya da çoğu insanın doğru yanıtlayacağını dürüstçe söylemek zor
- Makalede tüm sayılar 10’un altındaydı
  AIW Variation 1’de N=3, M=6, C=7; Variation 2’de N=4, M=2, C=3; Variation 3’te N=1, M=4, C=5; Variation 4’te N=4, M=1, C=2 idi
  Kısıtlayıcı prompt, makalede test edilen çeşitli prompt varyasyonlarından yalnızca biri. Makale, “sesli düşünme” dahil LLM performansını artıran yaygın teknikleri de denedi; ancak bu yöntemlerle bile model doğru yanıtı veremedi
- LLM’leri aptal olarak gören insanların sık yaptığı şey tam da bu kısıtlama
  LLM’ler ne kadar çok konuşursa o kadar akıllı hale gelir; çünkü çıktı üretmek hesaplama yapmalarının tek yoludur
  Bu, bir Turing makinesinin N değişkenli 3-SAT’ı N veya daha az hamlede çözemediği için Church-Turing tezini karşılamadığını söylemeye benziyor. LLM’den kısa ve öz olmasını istediğinizde ona bir bakıma bunu yaptırmış oluyorsunuz
- Yeni bir olguya ad gerekiyor gibi görünüyor. Biri LLM’nin önemsiz bir görevi yapamadığını söylediğinde, başka birinin kendisinin de o görevi yapamadığını ilan ederek LLM’nin meşruiyetini savunması olgusu
  Yeterli motivasyonu varsa ChatGPT giriş kutusuna kadar gidebilen ortalama bir insanın bu soruyu doğru yanıtlayamayacağına inanmak zor
- “Sesli düşünme” istendiğinde bile bu sistemlerin büyük ölçüde başarısız olup tamamen yanlış yanıtlar verdiğini gördüm
  Ayrıca beklenen bir yanıt biçimi varsa her zaman sesli düşünmek de mümkün değil. Aslında burada gerçek akıl yürütme yapılmadığına, bunun daha çok öz-gönderim olduğuna dair bir kanıt gibi görünüyor
  Aynı prompt’la sesli düşünmesini bizzat denedim; Alice’in 212 kız kardeşi olduğunu söyledi
- Bu önemli bir koşul, makalede bunu belirgin biçimde belirtmemeleri garip. ChatGPT 4o benim testlerimde her seferinde çözdü
  “Eli kolu bağlanmış” prompt’ta bile fena çalışmıyor gibi. Makalenin hatalı mı olduğu, yoksa OpenAI’ın modeli ayarlayıp ayarlamadığı merak konusu; ama ikincisi pek olası görünmüyor
  Yine de bildirildiğine göre 4o bu bilmeceyi %60 doğru yanıtlıyor. Ben henüz yalnızca yaklaşık 12 kez test ettim ve hepsi doğruydu; daha fazla denemem gerekecek
Başlıca açık LLM’leri değerlendiren “benchmark” veri kümelerinin önemli bir kısmının eğitim verilerinde yer aldığı açık olduğundan, model güvenilirliğini doğrulamak için neredeyse işe yaramazlar
Sonraki nesil modellerdeki puan artışlarının bir kısmının, ilgili benchmark verilerinin eğitim verilerine daha fazla dahil edilmiş olmasından kaynaklandığı da oldukça açık
LLM’leri daha iyi değerlendirmek için önceki eğitim verilerinde bulunmayacak şekilde yeni oluşturulmuş testler çıktıktan sonra birkaç hafta bekleyip onları kullanmak gerekir
Hukuk sınavları ve çeşitli sınavlarda görüldüğü gibi, gerçek gelecekteki örneklem dışı veriler kullanıldığında performans keskin biçimde düşüyor. Bu, şu anki sahte örneklem dışı benchmark’lardan farklı
- MMLU bir akıl yürütme benchmark’ı değil. Daha çok eğitim verisinin ne kadar geniş ve temsil edici olduğunu, ayrıca eğitim epoch’larına bağlı olarak ne kadar iyi hatırlandığını ölçen bir gösterge
  GPQA vb. bir şekilde akıl yürütmeyi test ediyor ve tüm modellerde iki puan arasında büyük fark görülebiliyor
- MMLU’nun benchmark olarak kullanıldığını her gördüğümde neyi kanıtlamaya çalıştıklarını merak ediyorum. MMLU, yanıtları açık olan basit bir çoktan seçmeli sınav
  Rastgele işaretleseniz bile 25 puan alırsınız; yanıtların %50’sini bilip kalanları rastgele işaretlerseniz %62,5 olur ki bu da güncel LLM puanlarına epey yaklaşır
  Akıl yürütmeyi gösterdiği söylenen benchmark’lar da oldukça berbat ve akıl yürütmeyle pek ilgileri yok. Birçok problem ezberle yanıtlanabilir
  Benchmark’ların berbat olduğu konusunda katılıyorum. Kendim oluşturmayı da düşündüm, ama önce karmaşık bir benchmark çerçevesi kurmak gerekiyor; bu hazırlık işine zaman ayırmak zor
Bu tür kelime problemlerinin ve LLM’lerin takıldığı problemlerin “insanlar için kolay çözüldüğü” fikri için ampirik veriye ihtiyaç var
Bilgisayar tarafındaki insanlar bulmacaları sever ve bu tür problemler onlara sezgisel görünür
LLM’ye verilenle aynı zaman kısıtı altında genel kitlenin bu bulmacayı doğru yanıtlama oranı, yazarların tahmin ettiğinden çok daha düşük olabilir; bu durumda LLM, insan düzeyi akıl yürütmeyle benzer bir çizgide olabilir
Elbette benim de alıntılayacak bir kaynağım yok, ama makaleyi yazan ben değilim
- Eğitim geçmişi olan biri olarak GPT-4’ün bu problemde genel kitlenin performansına oldukça yakın olacağını düşünüyorum. Birçok kişi AIW’yi kaçırır, neredeyse herkes de AIW+’ı kaçırır gibi
  Ben bu tür problemleri oldukça iyi çözen biriyim, ama AIW+ için bile kâğıt kalemle yaklaşık 1 dakikaya ihtiyacım oluyor. GRE gibi sınavların en zor soruları düzeyinde
  İnternetin tamamındaki verilerle eğitilmiş modellerin, ortalama bir insanın bilişsel yaklaşımını belli belirsiz bir şekilde yakalıyor olabileceğini düşünüyorum. Ortalama insan bu tür sembolik manipülasyon biçimiyle düşünmüyor ve o biçimde yazmıyorsa, o yazılarla eğitilen model de benzer olabilir
“Alice’in N erkek kardeşi ve M kız kardeşi var. Alice’in erkek kardeşinin kaç kız kardeşi vardır?” sorusunu Gemini ek bir prompt olmadan doğru yanıtladı: https://g.co/gemini/share/6946d20c0a4d
Sayı ekleyince Gemini’nin kafası karıştı: “Alice’in 4 erkek kardeşi ve 3 kız kardeşi var. Alice’in erkek kardeşinin kaç kız kardeşi vardır?” https://g.co/gemini/share/14d34dcdc5df
Ama bunun tuzak soru olabileceğini söyleyince yine doğru yanıtladı: https://g.co/gemini/share/e1f1ce8f32a8
60/212 kardeşli versiyonu denemedim. Alice insan benzeri bir canlıysa yüzlerce kardeşi olmadığını varsaymak makul olduğundan, yanıtlayandan “doğru cevabı” beklemenin adil olmayan bir soru olduğunu düşünüyorum
- Gemini’yi unutmuşum. Daha önce tüm LLM’lerin başarısız olduğu tekne testimi az önce denedim; Gemini de başarısız oldu: https://news.ycombinator.com/item?id=40455392
  “Bir nehir kıyısında bir keçi ve bir tekne var. Karşı kıyıya nasıl geçersin? Dikkatlice düşün ve bunun tuzak soru olabileceğini unutma” diye sordum; Gemini bunu çiftçi-kurt-keçi-lahana probleminin bir varyasyonu gibi çözüp gereksiz yere keçiyi taşıma prosedürü oluşturdu
  Beklenen yanıt “tekneye binip nehri geçersin” gibi bir şey olsa yeterli. “Tekne ve keçiyle geçersin” de kabul edilebilir ama keçinin karşıya geçirilmesi istenmediği için, kesin konuşursak yanlış
- Yüzlerce kardeşin olamayacağı tepkisinin kendisi, insanın “genel zeka” olduğu iddiasında ortaya çıkan sorun. Dağılım dışı bir durumla karşılaşınca kafası karışıyor
  Gerçek bir genel zeka, taşıyıcı annelik maliyetinin yaklaşık 50 bin dolar olduğu bilgisini ve IVF’nin tarihsel bağlamını uygulayıp milyarder bir çiftin yüzlerce çocuk sahibi olmaya karar verdiğini varsayar ve hesabı sürdürürdü
  Zeki yaşam arayışı sürüyor
- GPT-4o soyut bulmacayı doğru çözdü. Ben denediğimde Gemini yanlış yaptı
İlginç bir makale, ama şaşırtıcı bir negatif sonucu seçip cımbızlama yapmış olabileceklerinden endişeleniyorum. Makale, bu vakayı bulana kadar kaç değerlendirmeyi incelediklerini tartışmıyor gibi
Genel olarak yapay zeka başarısızlık biçimlerinden bazıları, insanlara bariz görünen işlerde ortaya çıkabilir. Çünkü insanlardan farklı bir mimariye ve farklı güçlü yönlere sahipler
Önemli soru, bunun aile formülasyonunda görülen tekil ve tuhaf bir bilişsel hata mı, yoksa geniş bir bilişsel hata sınıfını mı temsil ettiği. Bu makaleden bunu söylemek zor
Mantık probleminin çerçevelenmesinin, alttaki karşılaştırma yapısı izomorfik olsa bile insanlar için zorluğu büyük ölçüde değiştirebildiği iyi bilinir
Bu araştırma yönü önemli, ancak daha büyük değerlendirme kümeleri gerekiyor; değerlendirme verilerinin eğitime girmesi sorunu da her zaman karıştırıcı bir etken olarak kalacak
Buradaki daha geniş akıl yürütme kategorisi, makalenin dediği gibi ilişkisel akıl yürütme; bu nedenle devam çalışması olarak izomorfik problem kümeleri genelinde akıl yürütme performansına bakmak ilginç olurdu. LLM’ler ilişkisel akıl yürütmede hâlâ güçlü değil, bu yüzden bunun bir ölçüde genelleşeceğini düşünüyorum; ama özellikle aile ilişkileri formülasyonunun LLM’lerin kafasını karıştıran bir yanı da var gibi görünüyor
- Cinsiyet karşıtı önyargı eğitiminin iyi bir şey olduğunu düşünüyorum, ama “sister” ve “brother” içeren böyle formülasyonlarda bilişsel bir hasara da yol açabilir diye düşünüyorum
  Çünkü bu tür sorular, doğru cevabın genellemeyi reddetmek olduğu eğitim verileriyle ilişkilendirilebilir. Tamamen tahmin
GPT-4o’ya doğrudan sorunca beklediğimden daha ilginç bir sonuç çıktı
Prompt şuydu: “Alice’in 3 erkek kardeşi ve 6 kız kardeşi var. Alice’in erkek kardeşinin kaç kız kardeşi vardır? Adım adım çöz.”
Yanıt, Alice’in kendisini de dahil ederek toplam 7 kız kardeş olduğunu doğru şekilde söyleyip, sonunda “her erkek kardeş kendisini kız kardeş olarak saymadığı için kız kardeş sayısı 6’dır” sonucuna vardı
Ara hesap ile sonucun çeliştiği tipik bir adım adım akıl yürütme başarısızlığı gibi görünüyor
AIW+ problemlerinde, yazıldığı haliyle çözmek için bilinmeyen bilgiler var
Yazarlar yüzlerce aile ilişkisi problemi oluşturduktan sonra cevap açık görünmüş olabilir, ama yalnızca cümleye bakınca Alice’in erkek kardeşi olup olmadığı, babasının kız kardeşi olup olmadığı, teyze/amca/dayı/hala çocuklarının yeğenlerine evlilik yoluyla akrabaların dahil edilip edilmediği gibi şeyler belirsiz
LLM’ler bu yanıtları açıkça verseniz bile muhtemelen yine başarısız olur, ama aynı problem “Alice’in yalnızca 4 kuzeni varsa bu nasıl mümkün olabilir?” diye de bitebilirmiş gibi görünüyor
Bu problemle ilgili iyi bir sunum var: https://youtu.be/hGXhFa3gzBs?si=15IJsTQLsyDvBFnr
Temel nokta, LLM’lerin planlama ve akıl yürütmede berbat olduğu. Bir planlama görevinin kurallarını verip sonuç isteyebilirsiniz, ama mantık doğru olduğunda bile doğruluk yalnızca soyut kurallara değil, ek anlamsal bilgilere de büyük ölçüde bağlı
Sunumda bunu, görevin kurallarındaki ve girdi açıklamasındaki isimleri tamamen farklı bir alana eşleyerek gösterdiler; basit bir yer değiştirme bile performansı çökertti
Mevcut LLM’ler çoğunlukla sınırlı genelleme yeteneğine sahip örüntü eşleyiciler
- İnsanlar da alan değiştiğinde istatistiksel çıkarım gibi şeylerde dağılıyor. Leda Cosmides’in evrimsel psikoloji çalışmalarının bunu ele aldığını hatırlıyorum, ama daha ünlü bir deney de olabilir
Sevimli bir makale, ama yazarların “Alice’in N erkek kardeşi ve M kız kardeşi var…” problem şablonunu kendileri icat etmiş gibi konuşması biraz tuhaf
Bu, LLM’lere sıkça sorulan yaygın bir bilmecenin çok temel bir varyasyonu: https://news.ycombinator.com/item?id=39786666#39794890
74 gün önce ben de o bilmeceye değinmiştim ve o zaman bile bunu epey uzun süredir biliyordum

Basit Bir Görev, En Yeni LLM’lerde Muhakeme Çöküşünü Gösteriyor

AIW problemiyle ortaya çıkan basit muhakeme başarısızlığı

Varyasyona göre ciddi biçimde dalgalanan doğruluk oranı

Kontrol problemleriyle elenen basit nedenler

Prompt’lar ve değerlendirme prosedürü

Yanlış cevaplarda aşırı güven ve benchmark’ların yeniden değerlendirilmesi

İlgili okumalar

1 yorum

Hacker News yorumları