5 puan yazan GN⁺ 2025-07-20 | 1 yorum | WhatsApp'ta paylaş
  • OpenAI tarafından geliştirilen deneysel bir muhakeme LLM'i, 2025 Uluslararası Matematik Olimpiyatı'nda (IMO) altın madalya düzeyinde bir sonuç elde etti
  • Resmî IMO kurallarıyla aynı şekilde problem çözümü ve doğal dilde ispat yazımı yapıldı; 3 insan değerlendiricinin oybirliğiyle verdiği puanlamada 42 tam puan üzerinden 35 puan alındı (6 sorudan 5'i çözüldü)
  • IMO soruları yüksek zorlukta yaratıcı düşünme ve çok aşamalı ispatlar gerektiriyor; bu da LLM'lerin mevcut RL yaklaşımının sınırlarını aşarak insan seviyesinde mantıksal ispatlar üretebilme potansiyelini gösteriyor
  • Bunun belirli görevlere odaklı değil, genel amaçlı pekiştirmeli öğrenme ve test zamanı hesaplama ölçeklendirmesi ile başarılmış olması özellikle önem taşıyor
  • Model, yakında çıkacak GPT-5'ten ayrı bir araştırma sürümü ve en üst düzey matematik performansının paylaşılması birkaç ay sonra planlanıyor

OpenAI LLM'inin IMO 2025 performansına genel bakış

  • OpenAI'dan Alexander Wei (@alexwei_), en yeni deneysel muhakeme dil modelinin 2025 IMO'da altın madalya eşiğinde bir performans sergilediğini duyurdu
    • IMO, dünyanın dört bir yanından matematikte en başarılı gençlerin katıldığı, karmaşık mantıksal akıl yürütme ve derin kavramsal anlayış gerektiren sorularıyla tanınan son derece zorlu bir yarışma
  • Değerlendirme yöntemi, insan katılımcılarla aynı olacak şekilde 2 oturumlu 4,5 saatlik sınav, resmî soru kâğıdı, dış araç kullanmama ve doğal dilde ispat sunumu ile gerçekleştirildi
  • Her soru, eski 3 IMO madalyalısı tarafından bağımsız olarak değerlendirildi ve puanlar oybirliğiyle kesinleştirildi

Sonucun önemi ve artan zorluk düzeyi

  • IMO soruları, mevcut benchmark'lara (GSM8K, MATH, AIME) kıyasla çok daha uzun düşünme süresi, yaratıcılık ve karmaşık akıl yürütme gerektiriyor
  • Bu model, 5 soruyu (P1~P5) tamamen çözüp P6'yı teslim etmeyerek 35/42 puan aldı ve gerçek IMO altın madalya eşiğini karşıladı
  • Birkaç sayfaya yayılan mantıksal ispatlar üretme yeteneği, mevcut pekiştirmeli öğrenme (RL) sınırlarının ötesine geçtiğini gösteriyor

Araştırma yaklaşımı ve yapay zeka ilerlemesinin bağlamı

  • Yüksek performans, yalnızca belirli problem çözümüne yönelik bir modelle değil; genel amaçlı RL ve hesaplama ölçeklendirmesine dayalı bir yaklaşımla elde edildi
  • Mevcut RL'nin sağladığı net ödül yapısı olmadan da karmaşık ve yaratıcı çıktılar üretmeyi başardı
  • Bu deneysel model, yakında çıkacak GPT-5'ten ayrı ve bu seviyedeki matematik yeteneklerinin birkaç ay içinde genel kullanıma açılması planlanmıyor

Gelecek görünümü ve toplulukta yapılan yorumlar

  • Yapay zekanın matematik yeteneğindeki ilerleme hızı beklentilerin çok önüne geçmiş durumda (2021'de MATH benchmark'ı için yapılan %30 tahminine kıyasla IMO altın madalya düzeyine ulaşılması)
  • Alexander, 2025 IMO katılımcılarının tümünü tebrik ettiğini belirtirken ekip içinde geçmişte IMO'ya katılmış çok sayıda kişi olduğunu da vurguladı
  • Modelin 2025 IMO sorularına getirdiği çözümler de yayımlanacak, ancak deneysel bir tarzda

1 yorum

 
GN⁺ 2025-07-20
Hacker News görüşleri
  • Noam Brown: son teknoloji bir araştırma laboratuvarında çalışınca genelde yeni yetenekleri birkaç ay önceden görme fırsatı oluyor, ama bu sonuç çok yeni geliştirilmiş teknikler kullanan gerçekten yeni bir başarıydı; OpenAI içindeki araştırmacılar için bile şaşırtıcıydı; bugün artık herkes son teknolojinin nereye ulaştığını görebiliyor
    Ayrıca bu başarıya küçük bir ekip öncülük etti; Alex Wei, pek az kişinin inandığı bir araştırma fikrini gerçek bir sonuca dönüştürdü; OpenAI ve AI topluluğunun yıllara yayılan araştırma ve mühendislik birikimi de büyük rol oynadı
    Bağlantı: https://x.com/polynoamial/status/1946478258968531288

    • Umarım o yeni teknik test verisiyle eğitmek değildir /şaka
  • İlginç biçimde, IMO çözümlerinin oldukça sınırlı bir kelime dağarcığı kullanması dikkat çekici
    Bağlantı: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “Daha az kelime daha etkiliyken lafı uzatmaya gerek yok”
    Ayrıca dikkat çekici olan şu ki Alex Wei’nin kendisi de bir IOI altın madalyası sahibi

    • Bir yandan bunun, gerçek bir yarışmacının çözerken aldığı notlara benzemesi ilginç; gereksiz sözleri azaltmak bilgi gürültüsünü düşürüp odaklanmaya yardımcı oluyor; özellikle de LLM’lerin bir seferde bir token üretmesi ve bağlam uzunluğu sınırına sahip olması düşünüldüğünde, yalnızca anlamlı token’lar kullanmak daha uzun ve tutarlı bir düşünce akışına yol açabilir mi diye merak ediyorum
    • IOI’de (Bilgisayar Olimpiyatı) altın madalya almış biri olması, ama buradaki tartışmanın IMO (Matematik Olimpiyatı) hakkında olması da ilginç
    • Terence Tao da yakın zamanda bir podcast’te bu yıl bir LLM’in altın madalya alacağını öngörmüştü
    • Transformer’larda her token’ın üretimi, ne anlam taşıdığına bakılmaksızın aynı süreyi alır; metindeki tekrarlı ya da gereksiz kısımları atmak hızı ciddi biçimde artırır
    • “see the world” derken “dünyayı gör” mü kastediliyor yoksa “SeaWorld” gibi bir ses oyunu mu, sormak isterdim
  • Bunu lise seviyesi diye küçümseyenlere bir IMO sorusu çözmeyi denemelerini tavsiye ederim; bu yılın soruları da dahil hepsi açık
    Bağlantı: https://www.imo-official.org/problems.aspx
    Benim başım dönüyor

    • Bununla ilgili olarak, bu tür soruların pratikte nasıl düşünüldüğünü ve çözüldüğünü gösteren videolar var
    • Bu tür IMO çözüm videolarını izlemeyi seviyorum; yüzeyde basit görünüyorlar ama adeta bir hile gibi
      Mesela x+y=1, xy=1 gibi bir soru görmüştüm; çözümde aslında bildiğimiz temel cebir yöntemleri (çarpanlara ayırma, kök formülü vb.) kullanılıyor ama anlatımı bile güzel
      Uzun uzun düşünürsem cevabı bulabilirmişim gibi hissettiriyor ama benim deneyimime göre hiç de öyle değil
      Bağlantı: https://www.youtube.com/watch?v=csS4BjQuhCc
    • Bu tür IMO sorularının leetcode hard seviyedeki sorularla kıyaslandığında nasıl olduğunu merak ediyorum
    • IMO sorularının birden çok dil sürümü olduğunu bunu görünce öğrendim
      Sanırım 50 kadar dil var; sayı bu kadar yüksek olunca soru sızması gibi güvenlik meselelerini korumanın da çok daha zor olacağı akla geliyor
  • Bu soruların lise seviyesi olması yalnızca ön bilgi bakımından öyle; kendileri son derece zor
    IMO geçmişi olmayan profesyonel matematikçilerin bile böyle bir performans göstermesi zor
    Bu, AI’nın matematikte insandan daha üstün olduğu anlamına gelmiyor; matematikçiler matematiğin sınırlarını genişletmeye odaklanır
    Yanıtların eğitim verisinde olmadığı söyleniyor
    Ve bunun yalnızca IMO’ya özel bir model olmadığı da iddia ediliyor

    • Veri bilimi yaparken doğrulama seti sızıntısını önlemenin düşündüğümden çok daha zor olduğunu hatırlıyorum
      Eğitim sürecini sürekli ayarlıyorsunuz, doğrulama seti performansı artınca mimariyi ve veriyi de buna göre yeniden seçiyorsunuz
      İstemeden de olsa doğrulama setine dair bilgi modelin içine azar azar sızıyor
      Sadece farklı bir doğrulama seti seçseniz bile bambaşka bir model ortaya çıkıyor
    • Bunun gerçekten IMO’ya özel bir model olup olmadığından şüpheliyim; Twitter dizisinde “genel akıl yürütme” deniyordu ama gerçekten olimpiyat matematik sorularıyla RL (pekiştirmeli öğrenme) yapılmadıysa OpenAI’dan resmi bir açıklama duymayı çok isterim
    • “IMO’ya özel bir model değil” iddiasının dayanağının ne olduğunu merak ediyorum
    • “Yanıtlar eğitim verisinde yok”, “IMO’ya özel model değil” gibi iddiaların arkasında hangi gerekçe ya da kanıt var, merak ediyorum
    • Bana kalırsa ne kadar bakarsam bakayım bunun IMO’ya özel bir model olduğu neredeyse kesin görünüyor
      Soruları yanıtlama biçimi de tam olarak bunu hissettiriyor
      Örnek: https://xcancel.com/alexwei_/status/1946477742855532918
      Asıl yanıt ekran görüntüsü: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
      AlphaProof tarzında doğal dille Lean benzeri sistemler arasında gidip geliyormuş gibi görünüyor
      OpenAI muhtemelen bu uygulama ayrıntılarını paylaşmayacaktır
  • Dizide şöyle deniyor: “Model P1~P5’i çözdü, P6 için ise yanıt üretemedi”
    En zor soru olan P6’yı insanlar da neredeyse hiç çözemedi; Çin takımı bile 42 tam puan üzerinden yalnızca 21 puan aldı ve çoğu başka ülkede kimse çözemedi

    • IMO’da ilk gün P1, P2, P3; ikinci gün P4, P5, P6 verilir
      Zorluk sırası genelde P1, P4, P2, P5, P3, P6 olacak şekilde tasarlanır; P1 en kolay, P6 en zordur
      Pratikte bu sıranın değiştiği de olur
    • Kanada takımından birinin P6’yı çözdüğünü sanıyorum ama genel olarak çok az kişi başardı
    • Makinenin insanlara da özellikle zor gelen sorularda, özellikle P6’da, başarısız olması insan müdahalesi olmuş olabileceğine dair bir ipucu gibi geliyor
      Salt mekanik bir şans olsa bile yanlış yanıtlar da üretebilirdi; yalnızca doğru yanıtlar mı seçildi, yani sadece başarılı sonuçlar mı ayıklandı diye merak ediyorum
  • Google da bu IMO’ya katıldı ve altın madalya aldı
    Bağlantı: https://x.com/natolambert/status/1946569475396120653
    OpenAI önce duyurduğu için yakında Google da resmi açıklama yapar gibi görünüyor

    • Noam Brown’ın “OpenAI içindeki araştırmacılar için bile şaşırtıcıydı” sözünü düşününce, birden fazla laboratuvarın aynı anda bu sonuca ulaşmış olması daha da şaşırtıcı olurdu
      Twitter’da Google’ın Lean kullandığı, OpenAI’ın ise araçsız yalnızca LLM kullandığı söyleniyordu
      Hangi yöntem olursa olsun sonuç daha önemli ama somut tekniklerin sınırları ve gelişim süreci de ilginç bir referans
    • Google’ın AlphaProof’u geçen yıl gümüş madalya almıştı ve nöral + sembolik bir yaklaşım kullanıyordu
      OpenAI’ın altın madalyasının yalnızca saf LLM ile mümkün olmuş görünmesi dikkat çekici
      Google resmi açıklama yaptığında hangi yaklaşımı kullandığını öğrenmiş oluruz
      LLM yaklaşımının avantajı, bunun yalnızca matematiksel ispatlarla değil, çeşitli akıl yürütme problemlerine de genellenme potansiyelinin yüksek olması
  • Noam Brown:
    Bu, IMO’ya özel bir model değil; yeni deneysel genel amaçlı teknikler içeren bir akıl yürütme LLM’i
    o1 ve o3’ten çok daha verimli düşünüyor; test zamanındaki verimlilik daha da ileri taşınabilir
    Son dönemde AI ilerlemesi hızlıydı ama bunun bundan sonra da süreceğini düşünüyorum
    Özellikle AI’nın bilimsel keşiflere ciddi katkı sunmaya başlayacağı noktaya yaklaştığımızı görüyorum
    Yakın zamana kadar ilerlemenin yavaşladığını düşünüyordum ama öne sürülen çeşitli iddialarda (özel amaçlı model olmaması ve verimlilik artışı olasılığı gibi) somut ilerleme oldukça net görünüyor
    Bağlantı: https://x.com/polynoamial/status/1946478249187377206

    • “Sınav sorusu çözen model” ile “bilimsel keşfe katkı sağlayan AI” arasında ciddi bir sıçrama farkı olduğunu düşünüyorum
    • Kulağa rüya gibi geliyor ama tıpkı baro sınavı gibi belirli sınavlara göre ince ayar yapılmış modellerde olduğu gibi, bunlar da çoğu zaman önceki yılların sınav sorularıyla zaten eğitilmiş oluyor
    • İnce ayar sürecinde araç kullanımıyla birlikte (otomatik ispat araçları vb.) çalışılıp çalışılmadığını merak ediyorum
    • “o1 ve o3’ten daha verimli düşünüyor” kısmında,
      “Rakip (sabit) yanıt biçimini benimsediğinde asla kaybetmez. Kazanabilmesi için (rakibin kaybetmesi için) Q_{even-1}>even, yani bir a_j> sqrt2 olması gerekir, ama zaten a_j<=c< sqrt2. Dolayısıyla asla kaybedemez” gibi ifadeler
      Az sözle verimliliği en üst düzeye çıkarma eğilimi görülüyor
      Bağlantı: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
    • Artık verinin kıtlaştığı bir “peak data” noktasına gelmişken, verimlilik artışında belirgin ilerleme yollarının neler olduğunu merak ediyorum
  • Gerçekten etkileyici bir başarı ama bunu nasıl yaptıklarını merak ediyorum
    Wei’nin sözünü ettiği “test zamanında hesaplama ölçekleme”ye bakılırsa çok büyük para harcanmış gibi duruyor
    Binlerce ya da on binlerce paralel deneme yapıp yalnızca en iyi sonucu seçtilerse hayal kırıklığı olur
    Eğer gerçekten sağlam bir başarıysa hangi araçları kullandıklarını ve bunları nasıl kullandıklarını şeffaf biçimde açıklamaları gerekir
    Doğrulaması zor problemlerde performansı yükselten çeşitli teknikler muhtemelen burada devrededir

    • 10000 paralel deneme olsa bile bu o kadar da daha az ilginç olmaz
      Hatta bu, doğru çözüm ile hatalı çözümü ayırt edebildiği anlamına gelir; bu da nadiren de olsa çözebilen insanlardan çok da farklı değil
    • Twitter dizisine göre ayrı bir araç verilmemiş
    • Gerçekte OpenAI’ın binlerce ya da on binlerce paralel çalışma yapıp sonuçları seçmiş olması muhtemel görünüyor
      Erken o3 ARC benchmark döneminde de yöntem buydu
      Belki birden fazla ajan işbirliği yapıyordur; böyleyse bağlam uzunluğu sınırı da aşılmış olabilir

Artık AI çoğu matematik probleminde insanların %99,99’unu geçmiş durumdayken, %99,999’unu da geçmesi çok şaşırtıcı gelmiyor

  • Eğer OpenAI 10000 deneme yapıp sonuçları bir insanın elle seçmesini sağladıysa anlamı ciddi biçimde değişir
    Eğer LLM bunu kendi doğrulayıp kendi seçtiyse, bu insanın zor bir soruyu birçok kez deneyerek çözmesine daha benzer
    Fark şu ki AI bol hesaplama gücü sayesinde bunu paralel yapabilir; insan ise ancak sıralı şekilde deneyebilir

  • Bu yarışma (IMO) o kadar üst düzey ki programcı topluluğunda bile tam olarak ne olduğunu bilmeyen çok insan var gibi görünüyor
    Kabaca hesaplarsak ABD’de kampa seçilenler (altın madalya potansiyeli olanlar) yaklaşık 20 kişi; ilgili yaştaki toplam lise öğrencisi sayısını 20 milyon alırsak, bu “milyonda bir” düzeyinde bir yetenek demek

    • Yarışmanın aşırı zor olduğunu küçümsemeye çalışmıyorum
      Ben de seçkin bir lisede okudum ama IMO diye bir şeyi üniversiteye gidip yarışmacılarla tanışana kadar hiç duymamıştım
      Gerçekte yarışmadan haberdar olup katılan öğrenci sayısı tüm öğrenci kitlesinden çok daha az
      Yetenekten bağımsız olarak, birçok öğrencinin doğru fırsat ve bilgiye erişse iyi sonuçlar alabileceğini düşünüyorum
  • Yakın zamanda LLM’lerin IMO 2025 değerlendirmesine dair bir rapor gördüm; o3 high bronz seviye bile alamamıştı
    Bağlantı: https://matharena.ai/imo/
    Terry Tao’nun görüşünü de merak ediyorum ama bu alandaki ilerlemenin AI’nın olumlu kullanımına iyi bir örnek olduğunu düşünüyorum
    Ekonomi buna hazır değilken gelişi güzel inovasyondan ziyade bilimin ilerlemesini hızlandıran katkılar görmeyi umuyorum