OpenAI, 2025 Uluslararası Matematik Olimpiyatı'nda (IMO) altın madalya seviyesinde başarı elde ettiğini duyurdu

(twitter.com/alexwei_)

5 puan yazan GN⁺ 2025-07-20 | 1 yorum | WhatsApp'ta paylaş

OpenAI tarafından geliştirilen deneysel bir muhakeme LLM'i, 2025 Uluslararası Matematik Olimpiyatı'nda (IMO) altın madalya düzeyinde bir sonuç elde etti
Resmî IMO kurallarıyla aynı şekilde problem çözümü ve doğal dilde ispat yazımı yapıldı; 3 insan değerlendiricinin oybirliğiyle verdiği puanlamada 42 tam puan üzerinden 35 puan alındı (6 sorudan 5'i çözüldü)
IMO soruları yüksek zorlukta yaratıcı düşünme ve çok aşamalı ispatlar gerektiriyor; bu da LLM'lerin mevcut RL yaklaşımının sınırlarını aşarak insan seviyesinde mantıksal ispatlar üretebilme potansiyelini gösteriyor
Bunun belirli görevlere odaklı değil, genel amaçlı pekiştirmeli öğrenme ve test zamanı hesaplama ölçeklendirmesi ile başarılmış olması özellikle önem taşıyor
Model, yakında çıkacak GPT-5'ten ayrı bir araştırma sürümü ve en üst düzey matematik performansının paylaşılması birkaç ay sonra planlanıyor

OpenAI LLM'inin IMO 2025 performansına genel bakış

OpenAI'dan Alexander Wei (@alexwei_), en yeni deneysel muhakeme dil modelinin 2025 IMO'da altın madalya eşiğinde bir performans sergilediğini duyurdu
- IMO, dünyanın dört bir yanından matematikte en başarılı gençlerin katıldığı, karmaşık mantıksal akıl yürütme ve derin kavramsal anlayış gerektiren sorularıyla tanınan son derece zorlu bir yarışma
Değerlendirme yöntemi, insan katılımcılarla aynı olacak şekilde 2 oturumlu 4,5 saatlik sınav, resmî soru kâğıdı, dış araç kullanmama ve doğal dilde ispat sunumu ile gerçekleştirildi
Her soru, eski 3 IMO madalyalısı tarafından bağımsız olarak değerlendirildi ve puanlar oybirliğiyle kesinleştirildi

Sonucun önemi ve artan zorluk düzeyi

IMO soruları, mevcut benchmark'lara (GSM8K, MATH, AIME) kıyasla çok daha uzun düşünme süresi, yaratıcılık ve karmaşık akıl yürütme gerektiriyor
Bu model, 5 soruyu (P1~P5) tamamen çözüp P6'yı teslim etmeyerek 35/42 puan aldı ve gerçek IMO altın madalya eşiğini karşıladı
Birkaç sayfaya yayılan mantıksal ispatlar üretme yeteneği, mevcut pekiştirmeli öğrenme (RL) sınırlarının ötesine geçtiğini gösteriyor

Araştırma yaklaşımı ve yapay zeka ilerlemesinin bağlamı

Yüksek performans, yalnızca belirli problem çözümüne yönelik bir modelle değil; genel amaçlı RL ve hesaplama ölçeklendirmesine dayalı bir yaklaşımla elde edildi
Mevcut RL'nin sağladığı net ödül yapısı olmadan da karmaşık ve yaratıcı çıktılar üretmeyi başardı
Bu deneysel model, yakında çıkacak GPT-5'ten ayrı ve bu seviyedeki matematik yeteneklerinin birkaç ay içinde genel kullanıma açılması planlanmıyor

Gelecek görünümü ve toplulukta yapılan yorumlar

Yapay zekanın matematik yeteneğindeki ilerleme hızı beklentilerin çok önüne geçmiş durumda (2021'de MATH benchmark'ı için yapılan %30 tahminine kıyasla IMO altın madalya düzeyine ulaşılması)
Alexander, 2025 IMO katılımcılarının tümünü tebrik ettiğini belirtirken ekip içinde geçmişte IMO'ya katılmış çok sayıda kişi olduğunu da vurguladı
Modelin 2025 IMO sorularına getirdiği çözümler de yayımlanacak, ancak deneysel bir tarzda

1 yorum

GN⁺ 2025-07-20

Hacker News görüşleri

Noam Brown: son teknoloji bir araştırma laboratuvarında çalışınca genelde yeni yetenekleri birkaç ay önceden görme fırsatı oluyor, ama bu sonuç çok yeni geliştirilmiş teknikler kullanan gerçekten yeni bir başarıydı; OpenAI içindeki araştırmacılar için bile şaşırtıcıydı; bugün artık herkes son teknolojinin nereye ulaştığını görebiliyor
Ayrıca bu başarıya küçük bir ekip öncülük etti; Alex Wei, pek az kişinin inandığı bir araştırma fikrini gerçek bir sonuca dönüştürdü; OpenAI ve AI topluluğunun yıllara yayılan araştırma ve mühendislik birikimi de büyük rol oynadı
Bağlantı: https://x.com/polynoamial/status/1946478258968531288
- Umarım o yeni teknik test verisiyle eğitmek değildir /şaka
İlginç biçimde, IMO çözümlerinin oldukça sınırlı bir kelime dağarcığı kullanması dikkat çekici
Bağlantı: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “Daha az kelime daha etkiliyken lafı uzatmaya gerek yok”
Ayrıca dikkat çekici olan şu ki Alex Wei’nin kendisi de bir IOI altın madalyası sahibi
- Bir yandan bunun, gerçek bir yarışmacının çözerken aldığı notlara benzemesi ilginç; gereksiz sözleri azaltmak bilgi gürültüsünü düşürüp odaklanmaya yardımcı oluyor; özellikle de LLM’lerin bir seferde bir token üretmesi ve bağlam uzunluğu sınırına sahip olması düşünüldüğünde, yalnızca anlamlı token’lar kullanmak daha uzun ve tutarlı bir düşünce akışına yol açabilir mi diye merak ediyorum
- IOI’de (Bilgisayar Olimpiyatı) altın madalya almış biri olması, ama buradaki tartışmanın IMO (Matematik Olimpiyatı) hakkında olması da ilginç
- Terence Tao da yakın zamanda bir podcast’te bu yıl bir LLM’in altın madalya alacağını öngörmüştü
- Transformer’larda her token’ın üretimi, ne anlam taşıdığına bakılmaksızın aynı süreyi alır; metindeki tekrarlı ya da gereksiz kısımları atmak hızı ciddi biçimde artırır
- “see the world” derken “dünyayı gör” mü kastediliyor yoksa “SeaWorld” gibi bir ses oyunu mu, sormak isterdim
Bunu lise seviyesi diye küçümseyenlere bir IMO sorusu çözmeyi denemelerini tavsiye ederim; bu yılın soruları da dahil hepsi açık
Bağlantı: https://www.imo-official.org/problems.aspx
Benim başım dönüyor
- Bununla ilgili olarak, bu tür soruların pratikte nasıl düşünüldüğünü ve çözüldüğünü gösteren videolar var
  - 3Blue1Brown kanalında 2011 IMO Q2 zor sorusunun çözümü: https://www.youtube.com/watch?v=M64HUIJFTZM
  - Benzer zorlukta bir Putnam sorusunun çözüm videosu: https://www.youtube.com/watch?v=OkmNXy7er84
  - Fields madalyalı ve IMO tam puan sahibi Timothy Gowers’ın bu yılın IMO sorularını canlı çözümü
    - Q1: https://www.youtube.com/watch?v=1G1nySyVs2w
    - Q4: https://www.youtube.com/watch?v=O-vp4zGzwIs
- Bu tür IMO çözüm videolarını izlemeyi seviyorum; yüzeyde basit görünüyorlar ama adeta bir hile gibi
  Mesela x+y=1, xy=1 gibi bir soru görmüştüm; çözümde aslında bildiğimiz temel cebir yöntemleri (çarpanlara ayırma, kök formülü vb.) kullanılıyor ama anlatımı bile güzel
  Uzun uzun düşünürsem cevabı bulabilirmişim gibi hissettiriyor ama benim deneyimime göre hiç de öyle değil
  Bağlantı: https://www.youtube.com/watch?v=csS4BjQuhCc
- Bu tür IMO sorularının leetcode hard seviyedeki sorularla kıyaslandığında nasıl olduğunu merak ediyorum
- IMO sorularının birden çok dil sürümü olduğunu bunu görünce öğrendim
  Sanırım 50 kadar dil var; sayı bu kadar yüksek olunca soru sızması gibi güvenlik meselelerini korumanın da çok daha zor olacağı akla geliyor
Bu soruların lise seviyesi olması yalnızca ön bilgi bakımından öyle; kendileri son derece zor
IMO geçmişi olmayan profesyonel matematikçilerin bile böyle bir performans göstermesi zor
Bu, AI’nın matematikte insandan daha üstün olduğu anlamına gelmiyor; matematikçiler matematiğin sınırlarını genişletmeye odaklanır
Yanıtların eğitim verisinde olmadığı söyleniyor
Ve bunun yalnızca IMO’ya özel bir model olmadığı da iddia ediliyor
- Veri bilimi yaparken doğrulama seti sızıntısını önlemenin düşündüğümden çok daha zor olduğunu hatırlıyorum
  Eğitim sürecini sürekli ayarlıyorsunuz, doğrulama seti performansı artınca mimariyi ve veriyi de buna göre yeniden seçiyorsunuz
  İstemeden de olsa doğrulama setine dair bilgi modelin içine azar azar sızıyor
  Sadece farklı bir doğrulama seti seçseniz bile bambaşka bir model ortaya çıkıyor
- Bunun gerçekten IMO’ya özel bir model olup olmadığından şüpheliyim; Twitter dizisinde “genel akıl yürütme” deniyordu ama gerçekten olimpiyat matematik sorularıyla RL (pekiştirmeli öğrenme) yapılmadıysa OpenAI’dan resmi bir açıklama duymayı çok isterim
- “IMO’ya özel bir model değil” iddiasının dayanağının ne olduğunu merak ediyorum
- “Yanıtlar eğitim verisinde yok”, “IMO’ya özel model değil” gibi iddiaların arkasında hangi gerekçe ya da kanıt var, merak ediyorum
- Bana kalırsa ne kadar bakarsam bakayım bunun IMO’ya özel bir model olduğu neredeyse kesin görünüyor
  Soruları yanıtlama biçimi de tam olarak bunu hissettiriyor
  Örnek: https://xcancel.com/alexwei_/status/1946477742855532918
  Asıl yanıt ekran görüntüsü: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
  AlphaProof tarzında doğal dille Lean benzeri sistemler arasında gidip geliyormuş gibi görünüyor
  OpenAI muhtemelen bu uygulama ayrıntılarını paylaşmayacaktır
Dizide şöyle deniyor: “Model P1~P5’i çözdü, P6 için ise yanıt üretemedi”
En zor soru olan P6’yı insanlar da neredeyse hiç çözemedi; Çin takımı bile 42 tam puan üzerinden yalnızca 21 puan aldı ve çoğu başka ülkede kimse çözemedi
- IMO’da ilk gün P1, P2, P3; ikinci gün P4, P5, P6 verilir
  Zorluk sırası genelde P1, P4, P2, P5, P3, P6 olacak şekilde tasarlanır; P1 en kolay, P6 en zordur
  Pratikte bu sıranın değiştiği de olur
- Kanada takımından birinin P6’yı çözdüğünü sanıyorum ama genel olarak çok az kişi başardı
- Makinenin insanlara da özellikle zor gelen sorularda, özellikle P6’da, başarısız olması insan müdahalesi olmuş olabileceğine dair bir ipucu gibi geliyor
  Salt mekanik bir şans olsa bile yanlış yanıtlar da üretebilirdi; yalnızca doğru yanıtlar mı seçildi, yani sadece başarılı sonuçlar mı ayıklandı diye merak ediyorum
Google da bu IMO’ya katıldı ve altın madalya aldı
Bağlantı: https://x.com/natolambert/status/1946569475396120653
OpenAI önce duyurduğu için yakında Google da resmi açıklama yapar gibi görünüyor
- Noam Brown’ın “OpenAI içindeki araştırmacılar için bile şaşırtıcıydı” sözünü düşününce, birden fazla laboratuvarın aynı anda bu sonuca ulaşmış olması daha da şaşırtıcı olurdu
  Twitter’da Google’ın Lean kullandığı, OpenAI’ın ise araçsız yalnızca LLM kullandığı söyleniyordu
  Hangi yöntem olursa olsun sonuç daha önemli ama somut tekniklerin sınırları ve gelişim süreci de ilginç bir referans
- Google’ın AlphaProof’u geçen yıl gümüş madalya almıştı ve nöral + sembolik bir yaklaşım kullanıyordu
  OpenAI’ın altın madalyasının yalnızca saf LLM ile mümkün olmuş görünmesi dikkat çekici
  Google resmi açıklama yaptığında hangi yaklaşımı kullandığını öğrenmiş oluruz
  LLM yaklaşımının avantajı, bunun yalnızca matematiksel ispatlarla değil, çeşitli akıl yürütme problemlerine de genellenme potansiyelinin yüksek olması
Noam Brown:
Bu, IMO’ya özel bir model değil; yeni deneysel genel amaçlı teknikler içeren bir akıl yürütme LLM’i
o1 ve o3’ten çok daha verimli düşünüyor; test zamanındaki verimlilik daha da ileri taşınabilir
Son dönemde AI ilerlemesi hızlıydı ama bunun bundan sonra da süreceğini düşünüyorum
Özellikle AI’nın bilimsel keşiflere ciddi katkı sunmaya başlayacağı noktaya yaklaştığımızı görüyorum
Yakın zamana kadar ilerlemenin yavaşladığını düşünüyordum ama öne sürülen çeşitli iddialarda (özel amaçlı model olmaması ve verimlilik artışı olasılığı gibi) somut ilerleme oldukça net görünüyor
Bağlantı: https://x.com/polynoamial/status/1946478249187377206
- “Sınav sorusu çözen model” ile “bilimsel keşfe katkı sağlayan AI” arasında ciddi bir sıçrama farkı olduğunu düşünüyorum
- Kulağa rüya gibi geliyor ama tıpkı baro sınavı gibi belirli sınavlara göre ince ayar yapılmış modellerde olduğu gibi, bunlar da çoğu zaman önceki yılların sınav sorularıyla zaten eğitilmiş oluyor
- İnce ayar sürecinde araç kullanımıyla birlikte (otomatik ispat araçları vb.) çalışılıp çalışılmadığını merak ediyorum
- “o1 ve o3’ten daha verimli düşünüyor” kısmında,
  “Rakip (sabit) yanıt biçimini benimsediğinde asla kaybetmez. Kazanabilmesi için (rakibin kaybetmesi için) Q_{even-1}>even, yani bir a_j> sqrt2 olması gerekir, ama zaten a_j<=c< sqrt2. Dolayısıyla asla kaybedemez” gibi ifadeler
  Az sözle verimliliği en üst düzeye çıkarma eğilimi görülüyor
  Bağlantı: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
- Artık verinin kıtlaştığı bir “peak data” noktasına gelmişken, verimlilik artışında belirgin ilerleme yollarının neler olduğunu merak ediyorum
Gerçekten etkileyici bir başarı ama bunu nasıl yaptıklarını merak ediyorum
Wei’nin sözünü ettiği “test zamanında hesaplama ölçekleme”ye bakılırsa çok büyük para harcanmış gibi duruyor
Binlerce ya da on binlerce paralel deneme yapıp yalnızca en iyi sonucu seçtilerse hayal kırıklığı olur
Eğer gerçekten sağlam bir başarıysa hangi araçları kullandıklarını ve bunları nasıl kullandıklarını şeffaf biçimde açıklamaları gerekir
Doğrulaması zor problemlerde performansı yükselten çeşitli teknikler muhtemelen burada devrededir
- 10000 paralel deneme olsa bile bu o kadar da daha az ilginç olmaz
  Hatta bu, doğru çözüm ile hatalı çözümü ayırt edebildiği anlamına gelir; bu da nadiren de olsa çözebilen insanlardan çok da farklı değil
- Twitter dizisine göre ayrı bir araç verilmemiş
- Gerçekte OpenAI’ın binlerce ya da on binlerce paralel çalışma yapıp sonuçları seçmiş olması muhtemel görünüyor
  Erken o3 ARC benchmark döneminde de yöntem buydu
  Belki birden fazla ajan işbirliği yapıyordur; böyleyse bağlam uzunluğu sınırı da aşılmış olabilir

Artık AI çoğu matematik probleminde insanların %99,99’unu geçmiş durumdayken, %99,999’unu da geçmesi çok şaşırtıcı gelmiyor

Eğer OpenAI 10000 deneme yapıp sonuçları bir insanın elle seçmesini sağladıysa anlamı ciddi biçimde değişir
Eğer LLM bunu kendi doğrulayıp kendi seçtiyse, bu insanın zor bir soruyu birçok kez deneyerek çözmesine daha benzer
Fark şu ki AI bol hesaplama gücü sayesinde bunu paralel yapabilir; insan ise ancak sıralı şekilde deneyebilir
Bu yarışma (IMO) o kadar üst düzey ki programcı topluluğunda bile tam olarak ne olduğunu bilmeyen çok insan var gibi görünüyor
Kabaca hesaplarsak ABD’de kampa seçilenler (altın madalya potansiyeli olanlar) yaklaşık 20 kişi; ilgili yaştaki toplam lise öğrencisi sayısını 20 milyon alırsak, bu “milyonda bir” düzeyinde bir yetenek demek
- Yarışmanın aşırı zor olduğunu küçümsemeye çalışmıyorum
  Ben de seçkin bir lisede okudum ama IMO diye bir şeyi üniversiteye gidip yarışmacılarla tanışana kadar hiç duymamıştım
  Gerçekte yarışmadan haberdar olup katılan öğrenci sayısı tüm öğrenci kitlesinden çok daha az
  Yetenekten bağımsız olarak, birçok öğrencinin doğru fırsat ve bilgiye erişse iyi sonuçlar alabileceğini düşünüyorum
Yakın zamanda LLM’lerin IMO 2025 değerlendirmesine dair bir rapor gördüm; o3 high bronz seviye bile alamamıştı
Bağlantı: https://matharena.ai/imo/
Terry Tao’nun görüşünü de merak ediyorum ama bu alandaki ilerlemenin AI’nın olumlu kullanımına iyi bir örnek olduğunu düşünüyorum
Ekonomi buna hazır değilken gelişi güzel inovasyondan ziyade bilimin ilerlemesini hızlandıran katkılar görmeyi umuyorum
- Terry Tao’nun tepkisi burada
  Bağlantı: https://mathstodon.xyz/@tao/114881419368778558