-
o3 ve FrontierMath'e genel bakış
- o3, OpenAI'nin yeni bir dil modeli olup FrontierMath adlı gizli bir veri kümesinde %25 puan almıştır.
- FrontierMath, Epoch AI'nın zorlayıcı matematik sorularından oluşan özel bir veri kümesidir.
- Veri kümesi, "Bu sayıyı bul!" gibi sorulardan oluşur ve otomatik olarak doğrulanabilen net bir cevap gerektirir.
-
FrontierMath veri kümesinin zorluk seviyesi
- FrontierMath'teki problemler araştırma matematikçilerine bile alışılagelmişin dışındadır ve bazıları doktora düzeyinde bilgi gerektirir.
- Veri kümesindeki sorular, matematiksel ispat yerine sayı bulmaya odaklanmaktadır.
- Matematik araştırmacıları genellikle ispat veya fikir bulmaya zaman ayırdığından, FrontierMath, yapay zeka matematik araştırması için önemli bir veri kümesidir.
-
Yapay zekanın matematiksel yeteneği
- Yapay zeka bugün lise seviyesindeki matematik problemlerini oldukça iyi çözebilmekte ve yakında üniversite matematik sınavlarını da geçebileceği düşünülmektedir.
- Ancak lisansüstü düzeyin üzerindeki yenilikçi fikirleri üretmek hâlâ zorludur.
- o3'ün %25 puan almış olması şaşırtıcı olsa da, bazı sorunların lisans seviyesinde olduğu ileri sürülüyor.
-
Matematik araştırmasında yapay zekanın rolü
- Matematik araştırmasında önemli olan, "Bu teoremi kanıtla!" gibi bir sorunu çözmekti.
- DeepMind'in AlphaProof'u, 2024 Uluslararası Matematik Olimpiyatı sorularından 4 tanesini çözdü; bunların bir kısmı tamamen Lean ispatıyla doğrulandı.
- Yapay zekanın matematik araştırmasında daha fazla rol alabilmesi için, kanıtları insanların anlayabileceği biçimde açıklayabilmesi gerekir.
-
Gelecek öngörüleri
- Yapay zekanın matematik araştırmasında daha geniş rol oynaması için, kanıtları insanların anlayabileceği şekilde açıklayabilmesi gerekiyor.
- Yapay zekanın gelişimi hızlı bir şekilde sürse de gitmekte olduğu yol hâlâ uzun.
- Yapay zekanın lisans düzeyinin ötesini aşacağı zamanın ne zaman olacağı ise hâlâ belirsizdir.
1 yorum
Hacker News Yorumu
Reddit'teki bir başlıkta üç zorluk seviyesinden %25'i T1 (en kolay), %50'si T2 idi. Yazarın incelediği beş açık sorudan ikisi T1, ikisiyse T2 idi. Glazer, T1'i "IMO/lisans düzeyi soru" olarak tanımladı, ancak yazar bunları lisans düzeyi olarak görmüyor. LLM, yazarın şaşıracağını söylediği işleri zaten yapıyor.
ChatGPT'yi kullanarak doğrusal cebiri anlamaya çalıştı, ancak gerçek matematikte sık sık aptalca hatalar yaptı. Örneğin, bir vektörün boyutunun dışına indeksleme yapmak, bir skalar için matris ayrıştırması denemek veya uyumsuz boyutlu matrisleri çarpmaya kalkmak.
O1, 4o'dan hataları daha iyi buluyor ama hâlâ birçok aptalca hata yapıyor. Bir miktar bilgisi olan birinin yardımı olmadan tutarlı sonuçlar üretmesi zor.
Akshay Venkatesh'in bir konuşmasında, otomatikleştirilmiş teori kanıtlamasının daha yaygın hale gelmesi durumunda "matematik mesleğinin" geleceği tartışıldı. Otomatik akıl yürütme gelişiminin araştırma matematiğinin kavramsallaştırma ve uygulama şeklini nasıl değiştireceği de ele alındı.
Oğlunun (18 yaşında) matematik okumak istediği bir ebeveyn olarak otomasyon nedeniyle mesleğin yok olup olmayacağından endişeleniyor. Ancak bir LLM'nin tamamen ikame edip edemeyeceğine dair kuşkuları var. LLM'nin her şeyi çözmek için sonsuz zaman ve kaynağa sahip olmadığı için insanların rolünün yine de devam edeceğini düşünüyor.
Bir LLM'nin neredeyse her sorunu çözebilen bir soru seti oluşturup oluşturamayacağını bilmiyor, ancak insan akıl yürütmesini değiştirebilecek genel bir problem çözücü olacağına inanmıyorum. Yapay zeka, insan gibi bağımsız bir anlamda toplumsal rasyonalite geliştirebileceği ana kadar akıl yürütme mümkün olmayacaktır.
ChatGPT'nin temel hatalar yaptığı örnekler verildi. Örneğin, Stop-and-Wait ARQ'nin verimlilik formülü türetirken yanlış bir adım izah ettiği görüldü. Başka bir örnek olarak, alıştırılabilecek bir kıyas mantığı istenince tutarsız bir kıyas verdi.
FrontierMath veri setinin bozulmuş olabileceği ileri sürüldü. OpenAI bu soruları biliyorsa bir sonraki sürümde FrontierMath testinde %80'in üzerinde puan alabileceği öngörülüyor.
Quantum araştırmalarında benzer bir probleme de rastlanıyor. Klasik bilgisayarla hesaplanamayacak hesaplamaları yaparak ancak ilerleme gösterilebiliyor. ChatGPT'nin %25 aldığı sırada, bu %25'in eğitim setindeki sorulara ne kadar yakın olduğuna dair bir soru var.
Bir dil modelinin Riemann Hipotezi için "kanıt" sunma ihtimali konusunda endişe var. Matematikçilerin bu tür kanıtları doğrulamaya çalışacakları, bunun da çok zaman alabileceği düşünülüyor.
IMO 2025'te bir makinenin yer almayacağı belirtiliyor. IMO'de "skorlayıcı" kavramı yok; puanlar her ülkenin takım lideri ile hakemler arasındaki müzakerelerle belirleniyor. AI ürünlerini/çalışmalarını puanlamak için yüzlerce kişi burada daha uzun süre kalmayacaktır.