5 puan yazan GN⁺ 2024-10-06 | 4 yorum | WhatsApp'ta paylaş
  • Büyük dil modellerinin (LLM), başkalarının neyi bildiğini ve bilmediğini anlama biçimi olan zihin kuramı (Theory of Mind) düzeyi hakkında çok fazla tartışma var
  • Bu not defteri, 9 LLM sohbet botundan Cheryl'ın doğum günü problemini (karakterlerin farklı zamanlarda farklı bilgi durumlarına sahip olduğu ünlü bir mantık bulmacası) çözmelerini isteyerek bu sorunun bir bölümünü inceliyor

LLM performans özeti

  • LLM'lerin hepsi probleme aşinaydı; bu yüzden prompt içinde problemi açıklamaya gerek yoktu, yalnızca adını anmak yeterliydi
  • Çoğu, problemin doğru cevabı olan 16 Temmuz'u doğru şekilde hatırladı
  • Ancak hiçbiri çözümü bulan bir program yazamadı
  • Hiçbir LLM, zaman içinde karakterlerin farklı bilgi durumlarını ayırt edemedi
  • En azından bu problem özelinde, LLM'lerde zihin kuramı yoktu (bunun nedeni, LLM'lerin eğitildiği Python programları arasında zihin kuramını ele alan programların neredeyse hiç olmaması olabilir)

LLM bazında yanıt özeti

Gerçek insan

  • Orijinal problemi doğru biçimde çözebilen ve yeni tarih kümeleri ile problemin diğer varyasyonlarını da işleyebilen bir program yazabiliyor
  • Bir kişinin olası doğum günü olduğuna inandığı tarih kümesini ifade eden BeliefState kavramını tanıttı
  • Karakterin ifadelerini, belirli bir tarihi girdi olarak alıp ifade ile tutarlıysa true döndüren bir fonksiyon olarak modelledi

ChatGPT 4o

  • Probleme dair mükemmel bir özetle başladı
  • Genelleştirilmiş bir çözüm yazmaya çalıştı, ancak zaman içindeki farklı karakter inanç durumlarını takip edemedi

Microsoft Copilot

  • ChatGPT'ye benzer hatalar yaptı

Gemini Advanced

  • Birden fazla fonksiyon tanımlaması açısından iyiydi, ancak zaman içindeki durum değişimlerini doğru işleyemedi

Meta Llama 405B

  • Çözümü bulamadı

Claude 3.5 Sonnet

  • Farklı tarihlerle örnekleri açıkça denemesi açısından iyiydi, ancak ikinci örnek için yalnızca tesadüfen çözüm olmadığını doğru bildirdi

Perplexity

  • albert_knows ve bernard_knows adında ayrı değişkenleri olduğu için umut verici görünüyordu, ancak doğru şekilde ele alamadı
  • Olası tarihleri parametre olarak almasına rağmen girdiyi yok sayıp month_days değerini orijinal tarihlere göre tanımlıyor

HuggingFace Chat

  • Sınıf tanımı öneren tek modeldi, ancak yine benzer hatalar yaptı
  • Olası tarih listesini kurucuda almasına rağmen, orijinal problemin belirli ay ve günlerini hard-code ediyor

You.com

  • Diğer modellere benzer hatalar yaptı, ancak sonuçta tarih seçmemek yerine yanlış bir tarih seçti

GN+ görüşü

  • Bu problem, LLM'lerin kuramsal zihin kuramı yeteneğini değerlendirmek için ilgi çekici bir yöntem
  • Tüm LLM'ler doğru cevabı hatırladı, ancak hiçbiri karakterlerin zaman içindeki bilgi durumu değişimlerini takip eden bir program oluşturamadı
  • Bunun nedeni, LLM'lerin eğitildiği kod örneklerinde bu tür muhakemenin yer almaması olabilir
  • Bu tür muhakeme problemlerinde LLM performansını iyileştirmek için, bu senaryoları açıkça ele alan programlarla eğitmek faydalı olabilir
  • LLM'lerin kuramsal zihin kuramı yeteneğine dair anlayışımızı genişletmek için buna benzer daha fazla problemi test etmek gerekiyor

4 yorum

 
comsect62 2024-10-08

Son teknoloji ve geleceğe dönük bir sektör olduğu için, sanki hiçbir şeyin olmadığı bir zeminde bilinmeyen bir şeyi inşa etmeye benziyor. Bu sırada mantıksal hayal gücü de gerekir. Apple'ın kurucusunu düşünün.

 
moderator 2024-10-08

Reklam kelimesi içerdiği için hariç tutuldu.

 
xguru 2024-10-07

Cheryl'in doğum günü, 2015 Singapur Matematik Olimpiyatı sorusu olarak çıktığında ünlenmişti; hatta bunun için bir wiki sayfası da var.
(Aslında 2006'da yayımlanmış bir ilk versiyonunun da olduğu söyleniyor.)

https://en.wikipedia.org/wiki/Cheryl%27s_Birthday

Soru şu şekilde:

Albert ve Bernard, Cheryl ile arkadaş olur ve ona doğum gününü sorar.
Cheryl onlara 10 tarih söyler.

  • 15 Mayıs, 16 Mayıs, 19 Mayıs
  • 17 Haziran, 18 Haziran
  • 14 Temmuz, 16 Temmuz
  • 14 Ağustos, 15 Ağustos, 17 Ağustos

Cheryl, Albert'e doğum gününün "ay"ını, Bernard'a ise doğum gününün "gün"ünü söylemiştir.

Albert: Cheryl'in doğum gününün ne zaman olduğunu bilmiyorum ama Bernard'ın da bilmediğini biliyorum.
Bernard: Ben de başta Cheryl'in doğum gününün ne zaman olduğunu bilmiyordum. Ama artık biliyorum.
Albert: O halde ben de artık Cheryl'in doğum gününün ne zaman olduğunu biliyorum.

Cheryl'in doğum günü ne zaman?

 
GN⁺ 2024-10-06
Hacker News görüşleri
  • Uzun zaman önce "Cheryl's Murder" adlı bir sürüm oluşturulmuştu. Dizüstü bilgisayar, "Cheryl's Birthday" gibi mantıksal tümevarım problemlerini çözebiliyor ve üretebiliyor
  • Gp1-o1 bu bulmacayı 13 saniyede doğru çözdü; mantıksal akıl yürütmesi ve açıklaması da çok kapsamlıydı. Bulmaca tanımını eğitim verisinden getirmesini istemenin haksızlık olduğunu düşünüyorum
  • o1 mini ilk denemede bulmacayı çözdü ve dizüstü bilgisayara verilen örnekte çalıştı
    • find_cheryls_birthday fonksiyonu, olası tarihleri analiz ederek Cheryl'ın doğum gününü buluyor
  • LLM değerlendirmelerindeki sorun, rastgele unsurların ve prompt'un belirli şekilde ifade edilmesinin önemli olması. Claude'dan problemi açıklamasını ve Python kodu yazmasını istedim; bir exception oluştu ama düzelttikten sonra doğru yanıtı aldım
  • Python örneğine eğitim verisinden kolayca erişilebildiği için bu test örneğinin uygun olmadığını düşünüyorum. Modelin bunu çözememesi ilginç
  • LLM ve NLP, dilsel akıl yürütmede hesap makinesi gibi çalışıyor. Doğal dilde belirsizlik ve anlam esnekliği var. Matematik problemlerini cümle biçiminde çözmelerini istemek zaman kaybı
  • Yapay zekanın ilerleyişine dair beklentiler sürekli değişiyor. LLM'ler ortalama bir insandan daha zeki ve pratik bilişsel işlerde insanı geride bırakabilir
  • LLM'lerin belirli soruları yanıtlayamamasından sonuç çıkarmak, "bir sonraki yinelemede mümkün olacak" ilkesi nedeniyle başarısız olabilir
  • Bu sadece bir mantık problemi; gerçek bir "zihin kuramı" testi değil. LLM'lerin insan davranışını modelleme yeteneğine sahip olması mümkün
  • Claude 3.5 Sonnet ilk denemede problemi çözdü ve geçerli tarih kümelerini üreten bir Python programı yazdı. Bu problemi çözmekte hiç zorlanmadı