- Büyük dil modellerinin (LLM), başkalarının neyi bildiğini ve bilmediğini anlama biçimi olan zihin kuramı (Theory of Mind) düzeyi hakkında çok fazla tartışma var
- Bu not defteri, 9 LLM sohbet botundan Cheryl'ın doğum günü problemini (karakterlerin farklı zamanlarda farklı bilgi durumlarına sahip olduğu ünlü bir mantık bulmacası) çözmelerini isteyerek bu sorunun bir bölümünü inceliyor
LLM performans özeti
- LLM'lerin hepsi probleme aşinaydı; bu yüzden prompt içinde problemi açıklamaya gerek yoktu, yalnızca adını anmak yeterliydi
- Çoğu, problemin doğru cevabı olan 16 Temmuz'u doğru şekilde hatırladı
- Ancak hiçbiri çözümü bulan bir program yazamadı
- Hiçbir LLM, zaman içinde karakterlerin farklı bilgi durumlarını ayırt edemedi
- En azından bu problem özelinde, LLM'lerde zihin kuramı yoktu (bunun nedeni, LLM'lerin eğitildiği Python programları arasında zihin kuramını ele alan programların neredeyse hiç olmaması olabilir)
LLM bazında yanıt özeti
Gerçek insan
- Orijinal problemi doğru biçimde çözebilen ve yeni tarih kümeleri ile problemin diğer varyasyonlarını da işleyebilen bir program yazabiliyor
- Bir kişinin olası doğum günü olduğuna inandığı tarih kümesini ifade eden
BeliefState kavramını tanıttı
- Karakterin ifadelerini, belirli bir tarihi girdi olarak alıp ifade ile tutarlıysa true döndüren bir fonksiyon olarak modelledi
ChatGPT 4o
- Probleme dair mükemmel bir özetle başladı
- Genelleştirilmiş bir çözüm yazmaya çalıştı, ancak zaman içindeki farklı karakter inanç durumlarını takip edemedi
Microsoft Copilot
- ChatGPT'ye benzer hatalar yaptı
Gemini Advanced
- Birden fazla fonksiyon tanımlaması açısından iyiydi, ancak zaman içindeki durum değişimlerini doğru işleyemedi
Meta Llama 405B
Claude 3.5 Sonnet
- Farklı tarihlerle örnekleri açıkça denemesi açısından iyiydi, ancak ikinci örnek için yalnızca tesadüfen çözüm olmadığını doğru bildirdi
Perplexity
albert_knows ve bernard_knows adında ayrı değişkenleri olduğu için umut verici görünüyordu, ancak doğru şekilde ele alamadı
- Olası tarihleri parametre olarak almasına rağmen girdiyi yok sayıp
month_days değerini orijinal tarihlere göre tanımlıyor
HuggingFace Chat
- Sınıf tanımı öneren tek modeldi, ancak yine benzer hatalar yaptı
- Olası tarih listesini kurucuda almasına rağmen, orijinal problemin belirli ay ve günlerini hard-code ediyor
You.com
- Diğer modellere benzer hatalar yaptı, ancak sonuçta tarih seçmemek yerine yanlış bir tarih seçti
GN+ görüşü
- Bu problem, LLM'lerin kuramsal zihin kuramı yeteneğini değerlendirmek için ilgi çekici bir yöntem
- Tüm LLM'ler doğru cevabı hatırladı, ancak hiçbiri karakterlerin zaman içindeki bilgi durumu değişimlerini takip eden bir program oluşturamadı
- Bunun nedeni, LLM'lerin eğitildiği kod örneklerinde bu tür muhakemenin yer almaması olabilir
- Bu tür muhakeme problemlerinde LLM performansını iyileştirmek için, bu senaryoları açıkça ele alan programlarla eğitmek faydalı olabilir
- LLM'lerin kuramsal zihin kuramı yeteneğine dair anlayışımızı genişletmek için buna benzer daha fazla problemi test etmek gerekiyor
4 yorum
Son teknoloji ve geleceğe dönük bir sektör olduğu için, sanki hiçbir şeyin olmadığı bir zeminde bilinmeyen bir şeyi inşa etmeye benziyor. Bu sırada mantıksal hayal gücü de gerekir. Apple'ın kurucusunu düşünün.
Reklam kelimesi içerdiği için hariç tutuldu.
Cheryl'in doğum günü, 2015 Singapur Matematik Olimpiyatı sorusu olarak çıktığında ünlenmişti; hatta bunun için bir wiki sayfası da var.
(Aslında 2006'da yayımlanmış bir ilk versiyonunun da olduğu söyleniyor.)
https://en.wikipedia.org/wiki/Cheryl%27s_Birthday
Soru şu şekilde:
Albert ve Bernard, Cheryl ile arkadaş olur ve ona doğum gününü sorar.
Cheryl onlara 10 tarih söyler.
Cheryl, Albert'e doğum gününün "ay"ını, Bernard'a ise doğum gününün "gün"ünü söylemiştir.
Albert: Cheryl'in doğum gününün ne zaman olduğunu bilmiyorum ama Bernard'ın da bilmediğini biliyorum.
Bernard: Ben de başta Cheryl'in doğum gününün ne zaman olduğunu bilmiyordum. Ama artık biliyorum.
Albert: O halde ben de artık Cheryl'in doğum gününün ne zaman olduğunu biliyorum.
Cheryl'in doğum günü ne zaman?
Hacker News görüşleri
find_cheryls_birthdayfonksiyonu, olası tarihleri analiz ederek Cheryl'ın doğum gününü buluyor