1 puan yazan GN⁺ 2025-01-02 | 1 yorum | WhatsApp'ta paylaş
  • Putnam-AXIOM benchmark tanıtımı

    • Putnam-AXIOM, büyük dil modellerinin (LLM) matematiksel muhakeme yeteneklerini değerlendirmek için tasarlanmış zorlu bir benchmarktir.
    • William Lowell Putnam Mathematical Competition'ın 236 matematik sorusu ve adım adım çözümlerini içerir.
    • Veri sızıntısını engellemek için 52 soruda işlevsel bir dönüştürme uygulanarak Putnam-AXIOM Variation benchmarkı oluşturuldu.
    • Soru öğelerini (değişkenler, sabitler vb.) programlı biçimde değiştirerek çevrim içi olarak mevcut olmayan yeni sorular sınırsız sayıda üretilebilir.
  • Benchmarkın önemi ve sonuçlar

    • Çoğu model, değiştirilmiş sorularda orijinal sorulara göre doğrulukta belirgin biçimde düşüş gösterdi.
    • OpenAI'nin o1-preview modeli Putnam-AXIOM Original'da %41.95 doğruluk elde etse de, değiştirilmiş veri setinde yaklaşık %30 doğruluk kaybı yaşadı.
  • Hakem geri bildirimi

    • Hakem 9XA: Benchmark, soru formatlama, yanıt eşdeğerliği doğrulaması gibi alanlarda gürültüyü minimuma indirecek şekilde tasarlandı ancak sızıntıyı önleme düzeyi yeterli olmayabilir. İşlevsel dönüştürmenin sadece 53 soruya uygulanması, değerlendirme gücünü azaltabilir.
    • Hakem krr4: Veri setinin 236 örnekten oluşması benchmark olarak ikna edici bir set olmasını engelleyebilir. Çoğu modelin düşük doğruluk göstermesi, problem zorluğunun daha kademeli olması gerektiğini gösteriyor.
    • Hakem Nbvs: Matematiksel problem çözme becerisini test etmek için zorlu bir soru seti sağlayan iyi bir katkı. Soru varyasyonu, mevcut kutu tabanlı değerlendirme çerçevesinde soru sızıntısını azaltmada iyi bir strateji olabilir.
    • Hakem MsMi: Güçlü modeller bile bu benchmarkta iyi performans gösteremeyen yeni ve zorlayıcı bir çıkarım benchmarku. \boxed{} komutunun kullanılmasını zorunlu kılması, benchmarkun anlatım esnekliğini sınırlandırıyor.
  • Ek sorular ve öneriler

    • \boxed{} komutunun doğru kullanılmaması nedeniyle yanlış puanlanan soru sayısı hakkındaki soru.
    • Soruların sürekli düzenlenerek hiçbir modelin ezberleyemeyeceği bir veri kümesi korunmasını sağlayan algoritmik bir yöntemle ilgili soru.

1 yorum

 
GN⁺ 2025-01-02
Hacker News Yorumları
  • ChatGPT'nin bir zamanlar "10 pound tüy ve 10 pound tuğla" sorusunu doğru yanıtladığı dönemi anımsatan bir görüş var; ancak soruyu biraz değiştirince performansının düştüğünü belirtiyor.

    • Örneğin, "9.99 pound çelik ve 10.01 pound pamuk" gibi bir soruda yanlış cevap verdiği görülüyor.
    • Modelin gerçek yeteneğini değerlendirmek için eğitim verisinin dışına çıkması gerektiği savunuluyor.
  • 1905'ten önceki tüm dijitalleştirilmiş verilerle eğitilip kütle-enerji eşdeğerliği formülü hakkında soru soran bir deneyi görmek isteyen bir görüş var.

    • Örüntü tanımanın zekânın bir türü olup olmadığına dair tartışmayı çözebileceği düşünülüyor.
  • LLM'nin gerçek iş görevlerindeki performansının Asya tarzı sınavlara girecek öğrencilerin son dakikadaki “ezberci” hazırlığına benzediği yönünde bir yorum var.

    • Anlamı kavramadan yalnızca kusursuz tekrar yapabilen bir yetenek olduğu söyleniyor.
  • Girdi çok az değiştirildiğinde modelin beklenen soruya geri dönerek yanlış yanıt verebildiği söyleniyor.

    • Soruyu farklı açılardan değerlendirmeye ve belirli bir sonuca götürmeye zorlanırsa daha iyi yanıt alınabildiği belirtiliyor.
  • LLM'in çok zor matematik ve yarışma programlama sorunlarını çözmede hâlâ başarılı olduğu görüşü dile getirilmiş.

    • Ancak daha önce gördüğü sorunlarda daha iyi davrandığı ifade ediliyor.
  • Modelin şu anki rastgele benchmarklarda hardcode ediliyor olması durumunun bir “açık sır” olup olmadığı sorgulanıyor.

  • Sorunun yeniden formüle edilmesinin insanlarda da kafa karıştırıcı olabileceği yönünde bir görüş var.

    • Güncel sorunların yeniden formülasyon etkisini görmek isteyen bir görüş bildiriliyor.
  • Örüntü eşleştirmede çok etkili olduğu ama örüntü değişince çalışmadığı belirtiliyor.

    • Geleneksel şekilde eğitildiği ve test zamanı hesaplama veya Monte Carlo Tree Search kullanılmadığına işaret ediliyor.
  • OpenAI'nin belirli bir veri setinde performans iddiasında bulunmadığına dikkat çeken bir görüş var.

    • O veri setindeki sorularda performansın belirgin biçimde arttığı sonucu çıkarılabiliyor.
  • o1-preview'dan o1'e kadar performansta bir artış oldu ve yeniden düzenlenmiş sorunlarda doğru cevap verildiği görüşü var.

    • SOTA'nın hızlı değiştiği belirtiliyor