- OpenAI tarafından geliştirilen deneysel bir muhakeme LLM'i, 2025 Uluslararası Matematik Olimpiyatı'nda (IMO) altın madalya düzeyinde bir sonuç elde etti
- Resmî IMO kurallarıyla aynı şekilde problem çözümü ve doğal dilde ispat yazımı yapıldı; 3 insan değerlendiricinin oybirliğiyle verdiği puanlamada 42 tam puan üzerinden 35 puan alındı (6 sorudan 5'i çözüldü)
- IMO soruları yüksek zorlukta yaratıcı düşünme ve çok aşamalı ispatlar gerektiriyor; bu da LLM'lerin mevcut RL yaklaşımının sınırlarını aşarak insan seviyesinde mantıksal ispatlar üretebilme potansiyelini gösteriyor
- Bunun belirli görevlere odaklı değil, genel amaçlı pekiştirmeli öğrenme ve test zamanı hesaplama ölçeklendirmesi ile başarılmış olması özellikle önem taşıyor
- Model, yakında çıkacak GPT-5'ten ayrı bir araştırma sürümü ve en üst düzey matematik performansının paylaşılması birkaç ay sonra planlanıyor
OpenAI LLM'inin IMO 2025 performansına genel bakış
- OpenAI'dan Alexander Wei (@alexwei_), en yeni deneysel muhakeme dil modelinin 2025 IMO'da altın madalya eşiğinde bir performans sergilediğini duyurdu
- IMO, dünyanın dört bir yanından matematikte en başarılı gençlerin katıldığı, karmaşık mantıksal akıl yürütme ve derin kavramsal anlayış gerektiren sorularıyla tanınan son derece zorlu bir yarışma
- Değerlendirme yöntemi, insan katılımcılarla aynı olacak şekilde 2 oturumlu 4,5 saatlik sınav, resmî soru kâğıdı, dış araç kullanmama ve doğal dilde ispat sunumu ile gerçekleştirildi
- Her soru, eski 3 IMO madalyalısı tarafından bağımsız olarak değerlendirildi ve puanlar oybirliğiyle kesinleştirildi
Sonucun önemi ve artan zorluk düzeyi
- IMO soruları, mevcut benchmark'lara (GSM8K, MATH, AIME) kıyasla çok daha uzun düşünme süresi, yaratıcılık ve karmaşık akıl yürütme gerektiriyor
- Bu model, 5 soruyu (P1~P5) tamamen çözüp P6'yı teslim etmeyerek 35/42 puan aldı ve gerçek IMO altın madalya eşiğini karşıladı
- Birkaç sayfaya yayılan mantıksal ispatlar üretme yeteneği, mevcut pekiştirmeli öğrenme (RL) sınırlarının ötesine geçtiğini gösteriyor
Araştırma yaklaşımı ve yapay zeka ilerlemesinin bağlamı
- Yüksek performans, yalnızca belirli problem çözümüne yönelik bir modelle değil; genel amaçlı RL ve hesaplama ölçeklendirmesine dayalı bir yaklaşımla elde edildi
- Mevcut RL'nin sağladığı net ödül yapısı olmadan da karmaşık ve yaratıcı çıktılar üretmeyi başardı
- Bu deneysel model, yakında çıkacak GPT-5'ten ayrı ve bu seviyedeki matematik yeteneklerinin birkaç ay içinde genel kullanıma açılması planlanmıyor
Gelecek görünümü ve toplulukta yapılan yorumlar
- Yapay zekanın matematik yeteneğindeki ilerleme hızı beklentilerin çok önüne geçmiş durumda (2021'de MATH benchmark'ı için yapılan %30 tahminine kıyasla IMO altın madalya düzeyine ulaşılması)
- Alexander, 2025 IMO katılımcılarının tümünü tebrik ettiğini belirtirken ekip içinde geçmişte IMO'ya katılmış çok sayıda kişi olduğunu da vurguladı
- Modelin 2025 IMO sorularına getirdiği çözümler de yayımlanacak, ancak deneysel bir tarzda
1 yorum
Hacker News görüşleri
Noam Brown: son teknoloji bir araştırma laboratuvarında çalışınca genelde yeni yetenekleri birkaç ay önceden görme fırsatı oluyor, ama bu sonuç çok yeni geliştirilmiş teknikler kullanan gerçekten yeni bir başarıydı; OpenAI içindeki araştırmacılar için bile şaşırtıcıydı; bugün artık herkes son teknolojinin nereye ulaştığını görebiliyor
Ayrıca bu başarıya küçük bir ekip öncülük etti; Alex Wei, pek az kişinin inandığı bir araştırma fikrini gerçek bir sonuca dönüştürdü; OpenAI ve AI topluluğunun yıllara yayılan araştırma ve mühendislik birikimi de büyük rol oynadı
Bağlantı: https://x.com/polynoamial/status/1946478258968531288
İlginç biçimde, IMO çözümlerinin oldukça sınırlı bir kelime dağarcığı kullanması dikkat çekici
Bağlantı: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “Daha az kelime daha etkiliyken lafı uzatmaya gerek yok”
Ayrıca dikkat çekici olan şu ki Alex Wei’nin kendisi de bir IOI altın madalyası sahibi
Bunu lise seviyesi diye küçümseyenlere bir IMO sorusu çözmeyi denemelerini tavsiye ederim; bu yılın soruları da dahil hepsi açık
Bağlantı: https://www.imo-official.org/problems.aspx
Benim başım dönüyor
Mesela
x+y=1, xy=1gibi bir soru görmüştüm; çözümde aslında bildiğimiz temel cebir yöntemleri (çarpanlara ayırma, kök formülü vb.) kullanılıyor ama anlatımı bile güzelUzun uzun düşünürsem cevabı bulabilirmişim gibi hissettiriyor ama benim deneyimime göre hiç de öyle değil
Bağlantı: https://www.youtube.com/watch?v=csS4BjQuhCc
Sanırım 50 kadar dil var; sayı bu kadar yüksek olunca soru sızması gibi güvenlik meselelerini korumanın da çok daha zor olacağı akla geliyor
Bu soruların lise seviyesi olması yalnızca ön bilgi bakımından öyle; kendileri son derece zor
IMO geçmişi olmayan profesyonel matematikçilerin bile böyle bir performans göstermesi zor
Bu, AI’nın matematikte insandan daha üstün olduğu anlamına gelmiyor; matematikçiler matematiğin sınırlarını genişletmeye odaklanır
Yanıtların eğitim verisinde olmadığı söyleniyor
Ve bunun yalnızca IMO’ya özel bir model olmadığı da iddia ediliyor
Eğitim sürecini sürekli ayarlıyorsunuz, doğrulama seti performansı artınca mimariyi ve veriyi de buna göre yeniden seçiyorsunuz
İstemeden de olsa doğrulama setine dair bilgi modelin içine azar azar sızıyor
Sadece farklı bir doğrulama seti seçseniz bile bambaşka bir model ortaya çıkıyor
Soruları yanıtlama biçimi de tam olarak bunu hissettiriyor
Örnek: https://xcancel.com/alexwei_/status/1946477742855532918
Asıl yanıt ekran görüntüsü: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
AlphaProof tarzında doğal dille Lean benzeri sistemler arasında gidip geliyormuş gibi görünüyor
OpenAI muhtemelen bu uygulama ayrıntılarını paylaşmayacaktır
Dizide şöyle deniyor: “Model P1~P5’i çözdü, P6 için ise yanıt üretemedi”
En zor soru olan P6’yı insanlar da neredeyse hiç çözemedi; Çin takımı bile 42 tam puan üzerinden yalnızca 21 puan aldı ve çoğu başka ülkede kimse çözemedi
Zorluk sırası genelde P1, P4, P2, P5, P3, P6 olacak şekilde tasarlanır; P1 en kolay, P6 en zordur
Pratikte bu sıranın değiştiği de olur
Salt mekanik bir şans olsa bile yanlış yanıtlar da üretebilirdi; yalnızca doğru yanıtlar mı seçildi, yani sadece başarılı sonuçlar mı ayıklandı diye merak ediyorum
Google da bu IMO’ya katıldı ve altın madalya aldı
Bağlantı: https://x.com/natolambert/status/1946569475396120653
OpenAI önce duyurduğu için yakında Google da resmi açıklama yapar gibi görünüyor
Twitter’da Google’ın Lean kullandığı, OpenAI’ın ise araçsız yalnızca LLM kullandığı söyleniyordu
Hangi yöntem olursa olsun sonuç daha önemli ama somut tekniklerin sınırları ve gelişim süreci de ilginç bir referans
OpenAI’ın altın madalyasının yalnızca saf LLM ile mümkün olmuş görünmesi dikkat çekici
Google resmi açıklama yaptığında hangi yaklaşımı kullandığını öğrenmiş oluruz
LLM yaklaşımının avantajı, bunun yalnızca matematiksel ispatlarla değil, çeşitli akıl yürütme problemlerine de genellenme potansiyelinin yüksek olması
Noam Brown:
Bu, IMO’ya özel bir model değil; yeni deneysel genel amaçlı teknikler içeren bir akıl yürütme LLM’i
o1 ve o3’ten çok daha verimli düşünüyor; test zamanındaki verimlilik daha da ileri taşınabilir
Son dönemde AI ilerlemesi hızlıydı ama bunun bundan sonra da süreceğini düşünüyorum
Özellikle AI’nın bilimsel keşiflere ciddi katkı sunmaya başlayacağı noktaya yaklaştığımızı görüyorum
Yakın zamana kadar ilerlemenin yavaşladığını düşünüyordum ama öne sürülen çeşitli iddialarda (özel amaçlı model olmaması ve verimlilik artışı olasılığı gibi) somut ilerleme oldukça net görünüyor
Bağlantı: https://x.com/polynoamial/status/1946478249187377206
“Rakip (sabit) yanıt biçimini benimsediğinde asla kaybetmez. Kazanabilmesi için (rakibin kaybetmesi için)
Q_{even-1}>even, yani bira_j> sqrt2olması gerekir, ama zatena_j<=c< sqrt2. Dolayısıyla asla kaybedemez” gibi ifadelerAz sözle verimliliği en üst düzeye çıkarma eğilimi görülüyor
Bağlantı: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
Gerçekten etkileyici bir başarı ama bunu nasıl yaptıklarını merak ediyorum
Wei’nin sözünü ettiği “test zamanında hesaplama ölçekleme”ye bakılırsa çok büyük para harcanmış gibi duruyor
Binlerce ya da on binlerce paralel deneme yapıp yalnızca en iyi sonucu seçtilerse hayal kırıklığı olur
Eğer gerçekten sağlam bir başarıysa hangi araçları kullandıklarını ve bunları nasıl kullandıklarını şeffaf biçimde açıklamaları gerekir
Doğrulaması zor problemlerde performansı yükselten çeşitli teknikler muhtemelen burada devrededir
Hatta bu, doğru çözüm ile hatalı çözümü ayırt edebildiği anlamına gelir; bu da nadiren de olsa çözebilen insanlardan çok da farklı değil
Erken o3 ARC benchmark döneminde de yöntem buydu
Belki birden fazla ajan işbirliği yapıyordur; böyleyse bağlam uzunluğu sınırı da aşılmış olabilir
Artık AI çoğu matematik probleminde insanların %99,99’unu geçmiş durumdayken, %99,999’unu da geçmesi çok şaşırtıcı gelmiyor
Eğer OpenAI 10000 deneme yapıp sonuçları bir insanın elle seçmesini sağladıysa anlamı ciddi biçimde değişir
Eğer LLM bunu kendi doğrulayıp kendi seçtiyse, bu insanın zor bir soruyu birçok kez deneyerek çözmesine daha benzer
Fark şu ki AI bol hesaplama gücü sayesinde bunu paralel yapabilir; insan ise ancak sıralı şekilde deneyebilir
Bu yarışma (IMO) o kadar üst düzey ki programcı topluluğunda bile tam olarak ne olduğunu bilmeyen çok insan var gibi görünüyor
Kabaca hesaplarsak ABD’de kampa seçilenler (altın madalya potansiyeli olanlar) yaklaşık 20 kişi; ilgili yaştaki toplam lise öğrencisi sayısını 20 milyon alırsak, bu “milyonda bir” düzeyinde bir yetenek demek
Ben de seçkin bir lisede okudum ama IMO diye bir şeyi üniversiteye gidip yarışmacılarla tanışana kadar hiç duymamıştım
Gerçekte yarışmadan haberdar olup katılan öğrenci sayısı tüm öğrenci kitlesinden çok daha az
Yetenekten bağımsız olarak, birçok öğrencinin doğru fırsat ve bilgiye erişse iyi sonuçlar alabileceğini düşünüyorum
Yakın zamanda LLM’lerin IMO 2025 değerlendirmesine dair bir rapor gördüm; o3 high bronz seviye bile alamamıştı
Bağlantı: https://matharena.ai/imo/
Terry Tao’nun görüşünü de merak ediyorum ama bu alandaki ilerlemenin AI’nın olumlu kullanımına iyi bir örnek olduğunu düşünüyorum
Ekonomi buna hazır değilken gelişi güzel inovasyondan ziyade bilimin ilerlemesini hızlandıran katkılar görmeyi umuyorum
Bağlantı: https://mathstodon.xyz/@tao/114881419368778558