Büyük Ölçekli Matematiksel Keşif ve Buluş

(terrytao.wordpress.com)

4 puan yazan GN⁺ 2025-11-08 | 1 yorum | WhatsApp'ta paylaş

AlphaEvolve, LLM kullanarak kodun kendisini evrimleştiren yeni tür bir optimizasyon aracı olarak matematik problemlerini çözmede uygulanıyor
Analiz, kombinatorik ve geometri alanlarından 67 problem üzerinde yapılan deneylerde, mevcut optimizasyon araçları düzeyinde sonuçlar verirken ölçeklenebilirlikte güçlü olduğunu gösterdi
Aracın uyarlanabilirliği yüksek; probleme özgü ayrıntılı bilgi olmadan çeşitli matematik problemlerine uygulanabiliyor ve verimli hesaplama için ayrıklaştırma parametrelerini kendisi belirleyebiliyor
Üretilen kod yorumlanabilirlik sağlıyor; insanların optimizasyon yapısını anlamasına veya yeni matematiksel içgörüler elde etmesine yardımcı oluyor
Bazı problemlerde mevcut sonuçları yeniden keşfetti veya küçük iyileştirmeler sağladı; böylece matematik araştırmasının otomasyonu ve doğrulanabilir keşfin genişletilmesi olasılığını gösterdi

AlphaEvolve ve araştırmaya genel bakış

Terence Tao, Bogdan Georgiev, Javier Gómez-Serrano, Adam Zsolt Wagner, Google DeepMind ile iş birliği içinde AlphaEvolve kullanan araştırma makalesini arXiv'de yayımladı
- Makale: “Mathematical exploration and discovery at scale”
- İlgili veriler ve prompt'lar GitHub deposunda yayımlandı
AlphaEvolve, LLM tabanlı kod evrimli bir optimizasyon sistemi; girdi değerleri yerine puan fonksiyonunu maksimize edecek şekilde kodu evrimleştiriyor
- LLM'nin ürettiği kod çalıştırılarak girdiler oluşturuluyor ve sonuçlar değerlendiriliyor
- Kod nesilleri arasında performansa dayalı çaprazlama ve mutasyonla evrim gerçekleşiyor
- “Halüsinasyonlar”, performans düşükse eleniyor; ancak bazıları çeşitliliği artırarak yerel optimumlardan kaçışa katkı sağlıyor
Kullanıcılar, performansı artırmak için ipuçları veya ilgili literatür PDF'leri yükleyebiliyor
Benzer araçlar arasında OpenEvolve, ShinkaEvolve, DeepEvolve bulunuyor

Deney kapsamı ve başlıca sonuçlar

67 matematik problemi üzerinde deney yapıldı; bunlara analiz, kombinatorik ve geometri de dahil
- Mevcut literatüre göre daha verimli geometrik paketlemeler veya varyasyon problemleri için fonksiyon adayları bulundu
Ölçeklenebilirlik (scale) önemli bir güçlü yön; tek bir problemin prompt'u ve doğrulama aracı değiştirilerek benzer problemlerde yeniden kullanılabiliyor
AlphaEvolve'un uyarlanabilirliği (adaptability) yüksek; ayrıntılı hiperparametre ayarları olmadan farklı problemlere uygulanabiliyor
- Örnek: Varyasyon problemlerinde verimli sonuçlar için ayrıklaştırma parametrelerini kendisinin belirlemesi sağlandı
- Örnek: Hausdorff–Young eşitsizliği sabit optimizasyon deneyi

Yorumlanabilirlik ve somut örnekler

AlphaEvolve'un çıktı kodu insanların okuyup analiz edebileceği biçimde; bu da optimizasyon yapısını anlamada faydalı
- Örnek: Gagliardo–Nirenberg eşitsizliği probleminde tam Talenti fonksiyonunu keşfetti ve bunu örnekleyen Python kodu üretti
Bazı durumlarda mevcut optimizasyon alt rutinlerini çağırıyor veya basit arama yöntemleri kullanıyor

Eğitim verisi ve performans farkları

Eğitim verisinde yer alan problemlerde LLM, hemen optimal çözümü (ör. Gaussian) önerebiliyor
- Problem değiştirilip Gaussian çözüm gizlendiğinde ise başka adayları araştırıyor
Örnek: aritmetik Kakeya sanısı ile ilgili deneyde ayrık Gaussian tabanlı bir aday önererek mevcut alt sınırı az da olsa iyileştirdi
- Bu sonuca dayanarak Tao, ayrı bir makalede teorik asimetrik davranışı kanıtladı

Doğrulayıcı tasarımı ve zayıflıklar

AlphaEvolve, doğrulama kodundaki açıkları kullanan “exploit”ler bulmada sık sık başarılı oluyor
- Örnek: Mesafe hata toleransının geniş olduğu bir geometri probleminde, noktaları aynı konuma yerleştirerek yüksek puan elde etti
Bunu önlemek için kesin aritmetik veya muhafazakâr puan fonksiyonları kullanılmalı
- Örnek: Moving Sofa probleminde muhafazakâr puanlama uygulanarak “Gerver sofa” yeniden keşfedildi ve 3B varyant probleminde yeni bir tasarım bulundu

Zor problemler ve sanı deneyleri

Sidorenko, Sendov, Crouzeix, Ovals gibi önemli çözülmemiş sanılar üzerinde deneyler yapıldı
- Mevcut literatürdeki en iyi adaylar yeniden keşfedildi, ancak karşı örnek bulunamadı
- Bu, ya sanıların doğru olduğunu ya da AlphaEvolve'un mevcut araştırmacıların zaten denediği “bariz” yapıları taradığını gösterebilir
Bu tür araçlar, negatif sonuçların sistematik kaydı için yararlı ve yeni sanılar önerilirken otomatik doğrulama aracı olarak kullanılma potansiyeline sahip
Bazı varyant problemlerde iki parametreli yeni genişletilmiş sanılar keşfedildi

Alanlara göre performans farkları

Analitik sayı teorisi problemlerinde, örneğin asal sayı teoremi yaklaşımı için elek ağırlığı tasarımında, yapıyı kullanmakta zorlandı
- Buna karşılık, sonlu cisim Kakeya ve Nikodym problemleri gibi cebirsel yapıya sahip problemlerde çok iyi sonuç verdi
Kakeya probleminde ikinci dereceden kalıntı temelli optimal yapıyı yeniden keşfetti ve 3 boyutta küçük bir iyileştirme sağladı
- Gemini'nin Deep Think özelliğiyle gayriresmî bir ispat bulundu ve AlphaProof ile Lean biçimsel ispatına dönüştürüldü
- 4 boyutlu iyileştirme önerisinin mevcut Bukh–Chao makalesi ile aynı yapıda olduğu anlaşıldı
Nikodym probleminde yeni bir 3 boyutlu yapı keşfedildi, ancak bunun rastgele yapıdan daha zayıf olduğu doğrulandı
- Bunun üzerine hibrit bir yapı geliştirilerek performans artırıldı; takip makalesi planlanıyor

Genel önem

AlphaEvolve, büyük ölçekli matematiksel keşfin otomasyonu için güçlü bir olasılık ortaya koyuyor
- Mevcut optimizasyon araçlarına kıyasla ölçeklenebilirlik, uyarlanabilirlik ve yorumlanabilirlik açısından üstün
- Bazı problemlerde yeni yapılara ve ispatlara yol açtı
Gelecekte matematik araştırmalarında yapay zeka tabanlı keşif ile insan doğrulamasının iş birliği modelinin yerleşmesi mümkün görünüyor

1 yorum

GN⁺ 2025-11-08

Hacker News yorumu

LLM hayranlarının her seferinde buna ‘devrim’ diyerek abartması yorucu, ama bu örnek LLM’lerin mevcut yeteneklerinin araştırmada iyi kullanıldığı bir vaka
Matematik problemini bir kodlama ajanı problemine dönüştürerek çözmüşler; bu yaklaşımın başka alanlara da genişletilebileceği görülüyor
AlphaEvolve sisteminin de mevcut ajanlara göre bazı iyileştirmeleri var gibi. Yapay zeka her yıl istikrarlı biçimde ilerliyor ama ne taraftarların ne de şüphecilerin abartısı faydalı
- Bu tür yakınmalar da sürekli tekrar ediyor gibi. Hoşuna gitmiyorsa bakmayabilirsin, değil mi?
  İnsanların hype cycle’ı keyifle izledikleri an farklı. Birine artık bayat gelmiş olsa da, başka biri için LLM ile matematik arasındaki bağlantı yeni olabilir. Bu tür ilham uzun vadede faydalı olabilir
- LLM şüphecileri de her seferinde hayranlara saldırıp ‘AI balonu’ diye kendi kendini tatmin eden bir dünya kurmaya çalışıyor
  Yine de bu çalışma LLM’in iyi kullanıldığı bir örnek. Artık haber değeri bile taşımayan pek çok pratik kullanım var. Hayranları var diye her seferinde onları eleştirmek gerekmiyor
Bu çalışma, LLM’lerin ‘yalnızca daha önce gördüğü problemleri çözdüğü’ iddiasına bir yanıt olabilir gibi görünüyor
LLM geliştiricilerini dinlerseniz, eğitim sonrasındaki RL sürecinin basit bir Markov chain’in ötesine geçen bir world model oluşturduğunu söylüyorlar
Sonraki adım, Genie 3 gibi modellerin üstüne benzer yetenekler inşa etmek
- Blogda alıntılanan makalenin 2. bölümüne bakarsanız, LLM evrimsel döngüde bir mutation function olarak kullanılıyor
  LLM temel araç olsa da, bu başarının payı daha çok evolutionary optimization tarafında
- Bu çalışmanın böyle bir iddiayı çürüttüğünü söylemek zor. Hâlâ uzmanların titiz müdahalesi gerekiyor ve LLM dışı düşünme de vazgeçilmez
- AlphaEvolve, LLM’in kendisi değil; LLM’i kod üretiminde kullanan bir evrimsel kodlama ajanı
  DeepMind bloguna göre AlphaGo ve AlphaFold gibi ‘Alpha’ serisinin devamı niteliğinde
  Bu yaklaşım Chollet’nin ARC-AGI testinde de iyi çalışabilir gibi. Ama Tao’nun ‘extremize’ ifadesini kullanması matematiksel terim olarak biraz tuhaf geliyor
- Bu yazıya bakılırsa, makaledeki çözümlerin de sonuçta mevcut literatürde zaten yer almış örnekler olma ihtimali var
- “LLM yalnızca gördüğü problemleri çözer” iddiası aşırı basit bir çerçeve
  Bu çalışma, hızlı doğrulama ve kötü çözümleri budama yapılabilen problemlere uygun. Buna karşılık insan yazılım geliştirmesinde tasarım önyargısı, yavaş evrim ve test zorluğu gibi nedenlerle bu yaklaşım daha zor
Daniel Litt’in işaret ettiği gibi, bu yalnızca ‘Compute’’un büyük ölçekte ilk kez devreye sokulduğu bir örnek olabilir
AlphaEvolve’un bazı eşitsizlikleri insanlar ve Moore’s Law ile de kolayca iyileştirilebilir
İlgili makale burada
Matematik altyapısı zayıf olanlar için özet isteyen bir yorum vardı
- Uzman değilim ama özetlersem: Terence Tao dünya çapında bir matematikçi, AlphaEvolve ise Google’ın LLM tabanlı optimizasyon aracı
  LLM, Python kodunda mutasyon üretmek için kullanılıyor ve hatalı denemeler otomatik olarak budanıyor
  67 problem test edilmiş ve sık sık uzman düzeyinde sonuçlar üretilmiş. Avantajları ölçeklenebilirlik, sağlamlık ve yorumlanabilirlik
  Ancak eğitim verisinde bulunan problemlerde hızlı yakınsama görüldü; problem tanımı gevşek olunca sistem bu boşlukları ‘istismar’ da edebildi
  Bazı matematik alanlarında (ör. analitik sayı teorisi) performansı düşüktü. Yine de insanların yararlanabileceği fikirler sunuyor
- Kısacası, LLM’i insanın matematiksel düşünme döngüsüne ekleyince araştırma düzeyinde matematik yapılabildi
  Her alanda eşit derecede güçlü değildi ama Ramanujan veya Erdős tarzı, hesaplama ağırlıklı problem çözümüne daha uygun bir yaklaşımdı
Kanepe problemi’nin (sofa problem) çözüldüğünü bilmiyordum. İlgili makale burada
- O dönemdeki tartışma bu başlıkta yapılmıştı
Yazıda en ilginç bulduğum şey, yazarın sözünü ettiği ‘robustness’ kavramıydı
AlphaEvolve, belirli bir alan bilgisi olmadan da çeşitli problemlere kolayca uygulanmış
Ancak yazılım dünyasında ‘robustness’ genelde ‘hata toleransı’ anlamına gelir; burada ‘adaptability’ daha uygun görünüyor
LLM’in gücü, karmaşık modelleme olmadan metin tabanlı entegrasyon sağlayabilmesi. Görüntü işleme biraz daha ilerlerse oyun AI’ı gibi alanlar da açılabilir
- Nitekim yazar metni sonradan düzenleyip ‘robustness’ı kaldırmış ve yerine ‘adaptability’ yazmış
Tao’nun “sorun prompt’ta olabilir” demesi oldukça cömert bir tavır
Diğer ML araştırmalarında performans düşük çıkınca “hyperparameter tuning’i kötü yaptık” türü bir özeleştiri pek görülmez
- Yine de makale değerlendirme sürecinde böyle eleştiriler yaygındır. Bu ise daha çok keşif amaçlı bir araştırma notu olduğu için bağlam farklı
- Gerçekte pek çok algoritma iyileştirmesi, yetersiz baseline tuning ya da istatistiksel işlem sorunlarından çıkıyor. Bu açıdan Tao aslında epistemik alçakgönüllülük göstermiş oldu
Makalenin 44.2 bölümündeki mantık bulmacası deneyi dikkat çekiciydi
AlphaEvolve, üç ‘muhafız’la (melek, şeytan, kapıcı) etkileşime girerek en iyi stratejiyi bulmaya çalışıyordu; ama sonunda başka bir LLM’i prompt injection ile kandırıp tam puan aldı
Bu süreçte AE kendi kendine “mantıksal karmaşıklığı azaltmak yerine simülasyonun kendisine saldıralım” önerisini getirdi
- Asıl nokta, AE’nin “mantık bulmacasının kurallarını bozup simülasyonu hackleyelim” fikrini üretmiş olması
- Son enjeksiyon başarısız olsaydı, sırada belki de ‘cehennemin kapısını’ açmak vardı
- Bir AI’ın başka bir AI’ı kandırarak problemi çözmesi gerçekten şeytani
  Geçmişteki kodlama benchmark sızıntısı vakası gibi tesadüf değildi; bu kez kasıtlı bir saldırı vardı
Bu çalışma modern çağın Gauss’un matematik laboratuvarı gibi
Birden çok matematikçi yerine desen arayan elektronik bir ekip çalıştırıp, çıkan sonuçlara bakarak ispat denemek gibi
Dürüst olmak gerekirse, Terence Tao söylüyorsa insan ister istemez inanıyor

Büyük Ölçekli Matematiksel Keşif ve Buluş

AlphaEvolve ve araştırmaya genel bakış

Deney kapsamı ve başlıca sonuçlar

Yorumlanabilirlik ve somut örnekler

Eğitim verisi ve performans farkları

Doğrulayıcı tasarımı ve zayıflıklar

Zor problemler ve sanı deneyleri

Alanlara göre performans farkları

Genel önem

İlgili okumalar

1 yorum

Hacker News yorumu