-
Putnam-AXIOM benchmark tanıtımı
- Putnam-AXIOM, büyük dil modellerinin (LLM) matematiksel muhakeme yeteneklerini değerlendirmek için tasarlanmış zorlu bir benchmarktir.
- William Lowell Putnam Mathematical Competition'ın 236 matematik sorusu ve adım adım çözümlerini içerir.
- Veri sızıntısını engellemek için 52 soruda işlevsel bir dönüştürme uygulanarak Putnam-AXIOM Variation benchmarkı oluşturuldu.
- Soru öğelerini (değişkenler, sabitler vb.) programlı biçimde değiştirerek çevrim içi olarak mevcut olmayan yeni sorular sınırsız sayıda üretilebilir.
-
Benchmarkın önemi ve sonuçlar
- Çoğu model, değiştirilmiş sorularda orijinal sorulara göre doğrulukta belirgin biçimde düşüş gösterdi.
- OpenAI'nin o1-preview modeli Putnam-AXIOM Original'da %41.95 doğruluk elde etse de, değiştirilmiş veri setinde yaklaşık %30 doğruluk kaybı yaşadı.
-
Hakem geri bildirimi
- Hakem 9XA: Benchmark, soru formatlama, yanıt eşdeğerliği doğrulaması gibi alanlarda gürültüyü minimuma indirecek şekilde tasarlandı ancak sızıntıyı önleme düzeyi yeterli olmayabilir. İşlevsel dönüştürmenin sadece 53 soruya uygulanması, değerlendirme gücünü azaltabilir.
- Hakem krr4: Veri setinin 236 örnekten oluşması benchmark olarak ikna edici bir set olmasını engelleyebilir. Çoğu modelin düşük doğruluk göstermesi, problem zorluğunun daha kademeli olması gerektiğini gösteriyor.
- Hakem Nbvs: Matematiksel problem çözme becerisini test etmek için zorlu bir soru seti sağlayan iyi bir katkı. Soru varyasyonu, mevcut kutu tabanlı değerlendirme çerçevesinde soru sızıntısını azaltmada iyi bir strateji olabilir.
- Hakem MsMi: Güçlü modeller bile bu benchmarkta iyi performans gösteremeyen yeni ve zorlayıcı bir çıkarım benchmarku. \boxed{} komutunun kullanılmasını zorunlu kılması, benchmarkun anlatım esnekliğini sınırlandırıyor.
-
Ek sorular ve öneriler
- \boxed{} komutunun doğru kullanılmaması nedeniyle yanlış puanlanan soru sayısı hakkındaki soru.
- Soruların sürekli düzenlenerek hiçbir modelin ezberleyemeyeceği bir veri kümesi korunmasını sağlayan algoritmik bir yöntemle ilgili soru.
1 yorum
Hacker News Yorumları
ChatGPT'nin bir zamanlar "10 pound tüy ve 10 pound tuğla" sorusunu doğru yanıtladığı dönemi anımsatan bir görüş var; ancak soruyu biraz değiştirince performansının düştüğünü belirtiyor.
1905'ten önceki tüm dijitalleştirilmiş verilerle eğitilip kütle-enerji eşdeğerliği formülü hakkında soru soran bir deneyi görmek isteyen bir görüş var.
LLM'nin gerçek iş görevlerindeki performansının Asya tarzı sınavlara girecek öğrencilerin son dakikadaki “ezberci” hazırlığına benzediği yönünde bir yorum var.
Girdi çok az değiştirildiğinde modelin beklenen soruya geri dönerek yanlış yanıt verebildiği söyleniyor.
LLM'in çok zor matematik ve yarışma programlama sorunlarını çözmede hâlâ başarılı olduğu görüşü dile getirilmiş.
Modelin şu anki rastgele benchmarklarda hardcode ediliyor olması durumunun bir “açık sır” olup olmadığı sorgulanıyor.
Sorunun yeniden formüle edilmesinin insanlarda da kafa karıştırıcı olabileceği yönünde bir görüş var.
Örüntü eşleştirmede çok etkili olduğu ama örüntü değişince çalışmadığı belirtiliyor.
OpenAI'nin belirli bir veri setinde performans iddiasında bulunmadığına dikkat çeken bir görüş var.
o1-preview'dan o1'e kadar performansta bir artış oldu ve yeniden düzenlenmiş sorunlarda doğru cevap verildiği görüşü var.