Putnam Sorularında Hafif Değişiklik Yapıldığında o1-preview Doğruluğu %30 Düşüyor

(openreview.net)

1 puan yazan GN⁺ 2025-01-02 | 1 yorum | WhatsApp'ta paylaş

Putnam-AXIOM benchmark tanıtımı
- Putnam-AXIOM, büyük dil modellerinin (LLM) matematiksel muhakeme yeteneklerini değerlendirmek için tasarlanmış zorlu bir benchmarktir.
- William Lowell Putnam Mathematical Competition'ın 236 matematik sorusu ve adım adım çözümlerini içerir.
- Veri sızıntısını engellemek için 52 soruda işlevsel bir dönüştürme uygulanarak Putnam-AXIOM Variation benchmarkı oluşturuldu.
- Soru öğelerini (değişkenler, sabitler vb.) programlı biçimde değiştirerek çevrim içi olarak mevcut olmayan yeni sorular sınırsız sayıda üretilebilir.
Benchmarkın önemi ve sonuçlar
- Çoğu model, değiştirilmiş sorularda orijinal sorulara göre doğrulukta belirgin biçimde düşüş gösterdi.
- OpenAI'nin o1-preview modeli Putnam-AXIOM Original'da %41.95 doğruluk elde etse de, değiştirilmiş veri setinde yaklaşık %30 doğruluk kaybı yaşadı.
Hakem geri bildirimi
- Hakem 9XA: Benchmark, soru formatlama, yanıt eşdeğerliği doğrulaması gibi alanlarda gürültüyü minimuma indirecek şekilde tasarlandı ancak sızıntıyı önleme düzeyi yeterli olmayabilir. İşlevsel dönüştürmenin sadece 53 soruya uygulanması, değerlendirme gücünü azaltabilir.
- Hakem krr4: Veri setinin 236 örnekten oluşması benchmark olarak ikna edici bir set olmasını engelleyebilir. Çoğu modelin düşük doğruluk göstermesi, problem zorluğunun daha kademeli olması gerektiğini gösteriyor.
- Hakem Nbvs: Matematiksel problem çözme becerisini test etmek için zorlu bir soru seti sağlayan iyi bir katkı. Soru varyasyonu, mevcut kutu tabanlı değerlendirme çerçevesinde soru sızıntısını azaltmada iyi bir strateji olabilir.
- Hakem MsMi: Güçlü modeller bile bu benchmarkta iyi performans gösteremeyen yeni ve zorlayıcı bir çıkarım benchmarku. \boxed{} komutunun kullanılmasını zorunlu kılması, benchmarkun anlatım esnekliğini sınırlandırıyor.
Ek sorular ve öneriler
- \boxed{} komutunun doğru kullanılmaması nedeniyle yanlış puanlanan soru sayısı hakkındaki soru.
- Soruların sürekli düzenlenerek hiçbir modelin ezberleyemeyeceği bir veri kümesi korunmasını sağlayan algoritmik bir yöntemle ilgili soru.

1 yorum

GN⁺ 2025-01-02

Hacker News yorumları

Bu soru ilk ortaya çıktığında ChatGPT’nin “10 pound tüy mü, 10 pound tuğla mı daha ağırdır?” sorusunu doğru yanıtlamasıyla insanların heyecanlandığını hatırlıyorum.
Ama elbette doğru bildi; bu sorunun eğitim verilerinde bulunmuş olma ihtimali yüksek.
Sadece isimleri ya da sayıları değiştirip gerçekten bir tarafı daha ağır hâle getirince performans dalgalanıyor.
Az önce chatgpt.com’da “9,99 pound’luk bir torba çelik külçe ile 10,01 pound’luk bir torba yumuşak pamuktan hangisi daha ağırdır?” diye sordum; ilk yanıtta çelik külçenin daha ağır olduğunu söyledi, sonunda ise pamuğun biraz daha ağır olduğunu belirterek doğru olsa da yanlış bir cevap verdi.
Bu yeteneği düzgün değerlendirmek için mutlaka eğitim verilerinin dışına çıkmak gerekir; 5 saniye içinde akla gelen sorular genelde ya zaten sık görülmüş ya da başkalarının da kolayca aklına gelebilecek şeylerdir.
Tanıdık yoldan biraz sapınca matematik performansı çok daha az etkileyici görünüyor.
- ChatGPT Plus’ta yeni bir oturumda, oltalama yapmadan yalnızca ilk cevaba bakıldığında GPT-4, GPT-4o ve GPT o1’in hepsi 10,01 pound’luk pamuk torbasının 9,99 pound’luk çelik külçe torbasından daha ağır olduğunu doğru şekilde söylüyor.
  Malzemeden veya yoğunluktan bağımsız olarak aynı birimde ağırlık karşılaştırması olduğu için 10,01’in 9,99’dan büyük olduğunu açıklıyorlar.
- https://chatgpt.com/share/67756897-8974-8010-a0e0-c9e3b3e91f...
  Şu ana kadar bu başlıkta insanların LLM’lerin yapamayacağını söylediği görevlerin hepsini o1-mini gayet iyi hallediyor.
- Abonelik olmadan denerseniz şu anda büyük olasılıkla çoğunlukla 4o-mini tarafından üretilmiş yanıtlar alırsınız.
  Bu, bağlantı verilen makalede ele alınan çıkarım modeli ailesinden o1, o1-mini veya önceki o1-preview değil.
  Hatta ana akım çıkarım-dışı model olan 4o bile olmayabilir; ücretsiz hesapta görünen “4o auto” bir model adı değil, maliyet etkin biçimde otomatik model seçmeye yönelik bir mekanizma gibi görünüyor.
  ChatGPT aboneliğiniz yoksa eskisi gibi kullanım sınırıyla belirli bir modeli seçmek de artık mümkün değil.
- Claude 3.5 Sonnet’e klasik doktor bilmecesini sorduğumda, düşünme süreci ekleyerek cevabı daha iyi hâle getirdi ama gerçekten anlamadığına dair izler de gösterdi.
  “Bir kadın ve oğlu trafik kazası geçirir; kadın ölür, çocuğu gören doktor ‘Bu çocuk benim oğlum, ameliyat edemem’ der. Bu nasıl mümkün olabilir?” sorusuna “Doktor çocuğun babasıdır” diye cevap verip bunun cinsiyet önyargısını gösteren klasik bir bilmece olduğunu açıkladı.
  Oysa asıl amaç doktorun annesi olabileceğini sormaktı; eşcinsel ebeveyn olasılığını da ekledi ama esas noktayı kaçırdı.
- İlk gördüğüm varyant “1 pound tüy mü, 1 pound altın mı daha ağırdır?” şeklindeydi; bu çok daha zor bir soru.
  Duyduğum cevap, altının troy ağırlığı ile, tüylerin ise avoirdupois ağırlığıyla ölçüldüğü; troy pound’un 12 ons, avoirdupois pound’un 16 ons olduğu, bu yüzden tüylerin daha ağır olduğuydu.
  Bunların hepsi doğru ama cevap eksik.
  Avoirdupois pound troy pound’dan daha ağır olduğu gibi, avoirdupois ons da troy ons’tan daha hafiftir.
  Sadece aradaki fark 16 ons ile 12 ons farkını tersine çevirecek kadar büyük değildir.
  Ons farkını kabul etmezseniz resmî cevap da saf cevap kadar yanlış olur.
Gerçekte zor olurdu ama denemek istediğim deney şu: 1905’ten önceki tüm dijitalleştirilmiş materyalleri, yani makaleleri, mektupları, kitapları, yayınları, dersleri vb. eğitip ardından kütle-enerji eşdeğerliği formülünü sormak.
Kesin bir cevap çıkarsa, örüntü tanımanın zekânın bir biçimi olup olmadığı tartışmasını bitirebilir gibi geliyor.
- Kütle ile enerjinin eşdeğer olabileceğini düşündüğünüz anda, boyut analizi tek başına formül için çok az seçenek bırakır.
  E=mc^2’de ilginç olan formülün kendisi değil, kütlenin enerjinin bir biçimi olduğu iddiası ve evrene dair çevresel gözlemlerdir.
  1905’teki asıl içgörü, doğru soruyu sormaya ve eşdeğerlik ilkesinin gerçekten geçerli olabileceğini hayal etmeye daha yakındı.
  Matematiğin önemli bir kısmı 1905’ten önce zaten vardı ve yapay zeka eğitim verilerine de girebilir: https://en.m.wikipedia.org/wiki/History_of_Lorentz_transform...
- Adam Brown’ın yer aldığı bir podcast’te benzer bir fikir duymuştum.
  Eğer yapay zeka yalnızca Einstein öncesi kitaplar ve makalelerle özel görelilik kuramını türetebiliyorsa, yapay akıl yürütme gelişiminde bir sonraki oyun değiştirici dönüm noktasına ulaşılmış demektir.
- Patent anlaşmazlıkları da bu şekilde karara bağlanmalı.
  LLM bunu bulabiliyorsa yenilik olmadığı kabul edilmeli.
- 1905 öncesi verinin, bir modelin “hello world”ü istikrarlı biçimde söylemesine yetecek kadar olup olmadığı bile şüpheli.
  İyi bir LLM için gereken terabayt ölçeğinde eğitim verisinin var olduğunu sanmıyorum; gigabayt düzeyinde kalır gibi.
Gerçek görevlerde LLM performansı, Asya tarzı sınavlara hazırlanırken son gece ezber yapan bir öğrenciye çok benziyor.
Mükemmel biçimde kusma becerisi var ama anlam kavramı yok.
- o3, ilk kez gördüğü FrontierMath problemlerinde %25 doğru yaptı.
  Cevap veri kümesinde doğrudan bulunduğunda daha iyi olduğu doğru, ama saklı tutulan problemlerin yeniliği açısından şimdiden ortalama insanı geçmiş durumda.
- JEE Advanced’e bakmak yeterli.
- Sonuçta bu, insan aptallığını kusursuzca yeniden üretmeyi başardığımıza dair bir başka kanıta daha yakın.
Girdiyi çok az değiştirince model, beklediği soruya geri dönüp yanlış yapıyor gibi görünüyor.
Biraz daha büyük değiştirip “önce bilinen olgulara ayır, ilgili arka plan bilgisini getir, sonra farklı açılardan değerlendirip sonuca var. En bariz ilk sonucu hemen yazma” gibi genel amaçlı prompt tekniği eklerseniz cevap çok daha iyi olur.
Bu, “LLM ezber olmadan böyle problemleri bile çözemeyen aptal bir akıl yürütücü” olmaktan ziyade, “beklenen örüntü üzerinden kandırılmaya çalışıldığında LLM kötü bir anlık cevap veriyor” gibi görünüyor.
LLM’lerin ezber yaptığı doğru ama bunun iki yönü var.
Ezberlenmiş probleme fazla benzer hâle getirirseniz, insanların yüze benzeyen şeylere içgüdüsel tepki verip sonra tekrar değerlendirmesi gibi algı sarsılabilir.
İlginç, ama birkaç noktaya değinmek gerekiyor
Birincisi, o1 değiştirilmiş Putnam problemlerinde bile %40’ın üstüne çıkıyor; bu, çoğu matematik bölümü öğrencisinin bile ulaşmakta zorlanacağı bir başarı
İkincisi, o3 Epoch AI veri kümesinin %25’ini çözdü
Bu problemlerin gerçekte ne kadar zor olduğunu sorgulayan ilginç bir yazı da vardı, ama yine de çok etkileyici
Adil sonuç şu gibi görünüyor: akıl yürütme modelleri çok zor matematik ve rekabetçi programlama problemlerini hâlâ iyi çözüyor, ancak daha önce görmüş oldukları problemlerde daha güçlüler
- Bu başlıktaki yorumlar makalenin içeriğinden tamamen kopuk; başlık da öfke tetiklemeye yakın ve makalenin içeriğini yansıtmıyor
  Bu problemlerin kayda değer bir kısmını çözebiliyor olmaları başlı başına oldukça şaşırtıcı bir başarı; küçük değişikliklere zaman zaman kanmaları bunu değiştirmiyor
  “Dolandırıcılık” ya da “sahte” gibi kelimeler savurmak daha çok temenniye ya da gerçeklikten kaçışa benziyor
Modellerin şu anda rastgele benchmark’lara göre hardcode edildiğinin açık sır olup olmadığını merak ediyorum
Bir chatbot’a Putnam problemi sormak başlı başına tuhaf görünüyor
- Çünkü insanlar bu modellere sürekli matematik soruları soruyor ve doğru cevapladıklarında bunu gerçekten matematiksel akıl yürütme yapabildiklerinin kanıtı olarak gösteriyorlar
  Modelin ne bildiğini kestirmek zor olduğu için, özel olarak öğrendiği içeriği aynen ne zaman geri çıkardığını ayırt etmek de zor
- Hardcode değil; bence bu problemlerin bir şekilde eğitim verisi içinde bulunma olasılığı yüksek
- Tasarım gereği hardcode edilemeyecek sınavları da geçiyorlar
  Hâlâ her türden kusurları ve tutarlılık sorunları var, ama birisi 2+2’nin cevabını öğretti diye “2+2=4” demesine kızmak aptalca
- Bu çalışma, GSM-Symbolic makalesini Putnam’a uygulamaya benziyor: https://arxiv.org/html/2410.05229v1
  Bundan sonra LLM performansı bozulmuş benchmark’larda da birlikte raporlanmalı
Bunlar son derece etkili örüntü eşleyiciler
Örüntüyü değiştirince çalışmıyorlar
Yanlış hatırlamıyorsam biri, muhtemelen @tszzl(roon), X’te o1 veya o3’ün de hâlâ geleneksel yöntemle eğitildiğini; AlphaGo’daki gibi test zamanı hesaplama ya da Monte Carlo ağaç araması olmadığını söylemişti
Eğer bu doğruysa hâlâ eğitim verisine dayanarak bir sonraki kelimeyi tahmin ediyorlar ve küçük değişikliklerde bile eğitimden gelen en olası yolu izlemeleri muhtemel
Ancak test zamanı hesaplama henüz doğru dürüst araştırılmadıysa performans artışı için uzun bir alan hâlâ var
Ayrıca tahmin etmeyi zorlaştıran şey, sorduklarımızın ne kadarının eğitim verisinde yer aldığını bilmememiz
Benzer görevlerde bile bazılarını iyi yapıp bazılarında başarısız olabilirler
- Yakın zamanda iki OpenAI araştırmacı röportajı izledim; o-series’in atılımını, GPT series’ten farklı olarak test zamanı hesaplamaya odaklanıp daha fazla “düşünecek” şekilde tasarlandığı ve özellikle örüntü eşlemeden kaçınmayı hedeflediği şeklinde açıklıyorlar
  Noam Brown https://youtu.be/OoL8K_AFqkw?si=ocIS0YDXLvaX9Xb6&t=195 ve Mark Chen https://youtu.be/kO192K7_FaQ?si=moWiwYChj65osLGy
- Ölçeklenebilir test zamanı hesaplama kullandıklarını düşünüyorum
  o3 duyurusunda yüksek hesaplama ve düşük hesaplama için doğruluk değerlerini ayrı ayrı açıkladılar; aynı modelde test zamanı hesaplama olmadan bunu yapmak zor gibi geliyor
  200 dolarlık aboneliğin de yanıtı zorunlu kılmadan önce test zamanı hesaplamayı daha uzun süre çalıştırmaya yaradığı kanaatindeyim
  Ancak test zamanı hesaplama olmadığı sözü doğruysa, Hugging Face’in 1B/3B model deneylerine bakınca sonuçları iyileştirme alanı muazzam
- OpenAI, o1 ve o3’ün test zamanı hesaplama kullandığını kamuya açık şekilde söyledi ve hesaplama miktarı üstel olarak arttığında performansın doğrusal iyileştiğini gösteren log ölçekli grafiği de yayımladı
  https://openai.com/index/learning-to-reason-with-llms/
  Kesinleşen şey, modelin ya da sistemin bir düşünce zinciri yürüttüğü kadar; ancak üstel faktörün ve çıkarım performansındaki artışın kaynağı, birden çok çıkarım zinciri üzerinde ağaç araması yapan düşünce ağacı olabilir
  roon’un OpenAI içinde kimliği muhtemelen iyi biliniyordur ve çalışan olduğu için Twitter’da uygulama ayrıntılarını sızdırmasını beklemek zor
Bu workshop katkısı fena değil; problem yeniden ifade etme kısmı olmasa bile benchmark’ın bir ölçüde değeri var
Ancak yalnızca az sayıda problemi yeniden ifade ettikleri kısım, kötü ifade (fig 3) ya da gereksiz gelenek bozma (fig 4; 2 boyutlu noktalar için genelde P ve x,y koordinatları kullanılır) nedeniyle insanlar için de gerçekten daha kafa karıştırıcı olabiliyor
En yeni ya da eğitim sonrası tarihli problemler üzerinde gürültü artışına bağlı yeniden ifade etme etkisini gösterselerdi, bu karışıklığın bir kısmını ayırt etmeye yarayabilirdi
Aynı benchmark’ta o3’ün ne kadar daha iyi olacağını da merak ediyorum
Ayrıca bu katkının tam başlığı “Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning”
Makalede değiştirilmiş soru örnekleri birkaç tane var
o1-preview’den o1’e ciddi bir sıçrama olduğu için birkaç örneği o1 ve o1-pro’ya verdim; mevcut o1 ailesi bu değiştirilmiş problemlere doğru yanıt veriyor
Güncel en iyi performans hızla değişiyor
- Makale, LLM’in doğru cevabı verse bile gerekçelendirme olmadan büyük sıçramalar yaptığı ya da mantıksız adımlardan geçerek doğru çözüme ulaştığı durumların birkaç kez yaşandığını söylüyor
  Bu kısmı da kontrol edip etmediğini merak ediyorum
- LLM savunucuları gerçekten yorucu
  Titiz bir değerlendirme yapılmış da değil; üstelik o set ekimden beri herkese açık, bu yüzden eğitim verisine kolayca eklenmiş olabilir
o3’ün FrontierMath’te %25 doğru yaptığı gerçeği görmezden gelinerek çok fazla olumsuz yorum yapılıyor
Bu gerçekten inanılmaz derecede etkileyici bir sonuç
Elbette bir sorunun cevabı eğitim verisinde doğrudan yer alıyorsa LLM daha iyi performans gösterir
Ama bu, cevap eğitim verisinde yokken yapamadığı anlamına gelmez
- EpochAI, modeli puanlamak için soruları OpenAI’ye göndermek zorunda; cevap anahtarını göndermez
  Bu benchmark’ta bir gecede %2’den %25’e sıçraması biraz ilginç bir olgu
- FrontierMath’te iyi performans gösterdiği doğru, ama bu başlığın konusu o değil
  Bu yüzden o söz pek ilgili değil

Putnam Sorularında Hafif Değişiklik Yapıldığında o1-preview Doğruluğu %30 Düşüyor

İlgili okumalar

1 yorum

Hacker News yorumları