4 puan yazan GN⁺ 2025-11-08 | 1 yorum | WhatsApp'ta paylaş
  • AlphaEvolve, LLM kullanarak kodun kendisini evrimleştiren yeni tür bir optimizasyon aracı olarak matematik problemlerini çözmede uygulanıyor
  • Analiz, kombinatorik ve geometri alanlarından 67 problem üzerinde yapılan deneylerde, mevcut optimizasyon araçları düzeyinde sonuçlar verirken ölçeklenebilirlikte güçlü olduğunu gösterdi
  • Aracın uyarlanabilirliği yüksek; probleme özgü ayrıntılı bilgi olmadan çeşitli matematik problemlerine uygulanabiliyor ve verimli hesaplama için ayrıklaştırma parametrelerini kendisi belirleyebiliyor
  • Üretilen kod yorumlanabilirlik sağlıyor; insanların optimizasyon yapısını anlamasına veya yeni matematiksel içgörüler elde etmesine yardımcı oluyor
  • Bazı problemlerde mevcut sonuçları yeniden keşfetti veya küçük iyileştirmeler sağladı; böylece matematik araştırmasının otomasyonu ve doğrulanabilir keşfin genişletilmesi olasılığını gösterdi

AlphaEvolve ve araştırmaya genel bakış

  • Terence Tao, Bogdan Georgiev, Javier Gómez-Serrano, Adam Zsolt Wagner, Google DeepMind ile iş birliği içinde AlphaEvolve kullanan araştırma makalesini arXiv'de yayımladı
    • Makale: “Mathematical exploration and discovery at scale”
    • İlgili veriler ve prompt'lar GitHub deposunda yayımlandı
  • AlphaEvolve, LLM tabanlı kod evrimli bir optimizasyon sistemi; girdi değerleri yerine puan fonksiyonunu maksimize edecek şekilde kodu evrimleştiriyor
    • LLM'nin ürettiği kod çalıştırılarak girdiler oluşturuluyor ve sonuçlar değerlendiriliyor
    • Kod nesilleri arasında performansa dayalı çaprazlama ve mutasyonla evrim gerçekleşiyor
    • “Halüsinasyonlar”, performans düşükse eleniyor; ancak bazıları çeşitliliği artırarak yerel optimumlardan kaçışa katkı sağlıyor
  • Kullanıcılar, performansı artırmak için ipuçları veya ilgili literatür PDF'leri yükleyebiliyor
  • Benzer araçlar arasında OpenEvolve, ShinkaEvolve, DeepEvolve bulunuyor

Deney kapsamı ve başlıca sonuçlar

  • 67 matematik problemi üzerinde deney yapıldı; bunlara analiz, kombinatorik ve geometri de dahil
    • Mevcut literatüre göre daha verimli geometrik paketlemeler veya varyasyon problemleri için fonksiyon adayları bulundu
  • Ölçeklenebilirlik (scale) önemli bir güçlü yön; tek bir problemin prompt'u ve doğrulama aracı değiştirilerek benzer problemlerde yeniden kullanılabiliyor
  • AlphaEvolve'un uyarlanabilirliği (adaptability) yüksek; ayrıntılı hiperparametre ayarları olmadan farklı problemlere uygulanabiliyor
    • Örnek: Varyasyon problemlerinde verimli sonuçlar için ayrıklaştırma parametrelerini kendisinin belirlemesi sağlandı
    • Örnek: Hausdorff–Young eşitsizliği sabit optimizasyon deneyi

Yorumlanabilirlik ve somut örnekler

  • AlphaEvolve'un çıktı kodu insanların okuyup analiz edebileceği biçimde; bu da optimizasyon yapısını anlamada faydalı
    • Örnek: Gagliardo–Nirenberg eşitsizliği probleminde tam Talenti fonksiyonunu keşfetti ve bunu örnekleyen Python kodu üretti
  • Bazı durumlarda mevcut optimizasyon alt rutinlerini çağırıyor veya basit arama yöntemleri kullanıyor

Eğitim verisi ve performans farkları

  • Eğitim verisinde yer alan problemlerde LLM, hemen optimal çözümü (ör. Gaussian) önerebiliyor
    • Problem değiştirilip Gaussian çözüm gizlendiğinde ise başka adayları araştırıyor
  • Örnek: aritmetik Kakeya sanısı ile ilgili deneyde ayrık Gaussian tabanlı bir aday önererek mevcut alt sınırı az da olsa iyileştirdi
    • Bu sonuca dayanarak Tao, ayrı bir makalede teorik asimetrik davranışı kanıtladı

Doğrulayıcı tasarımı ve zayıflıklar

  • AlphaEvolve, doğrulama kodundaki açıkları kullanan “exploit”ler bulmada sık sık başarılı oluyor
    • Örnek: Mesafe hata toleransının geniş olduğu bir geometri probleminde, noktaları aynı konuma yerleştirerek yüksek puan elde etti
  • Bunu önlemek için kesin aritmetik veya muhafazakâr puan fonksiyonları kullanılmalı
    • Örnek: Moving Sofa probleminde muhafazakâr puanlama uygulanarak “Gerver sofa” yeniden keşfedildi ve 3B varyant probleminde yeni bir tasarım bulundu

Zor problemler ve sanı deneyleri

  • Sidorenko, Sendov, Crouzeix, Ovals gibi önemli çözülmemiş sanılar üzerinde deneyler yapıldı
    • Mevcut literatürdeki en iyi adaylar yeniden keşfedildi, ancak karşı örnek bulunamadı
    • Bu, ya sanıların doğru olduğunu ya da AlphaEvolve'un mevcut araştırmacıların zaten denediği “bariz” yapıları taradığını gösterebilir
  • Bu tür araçlar, negatif sonuçların sistematik kaydı için yararlı ve yeni sanılar önerilirken otomatik doğrulama aracı olarak kullanılma potansiyeline sahip
  • Bazı varyant problemlerde iki parametreli yeni genişletilmiş sanılar keşfedildi

Alanlara göre performans farkları

  • Analitik sayı teorisi problemlerinde, örneğin asal sayı teoremi yaklaşımı için elek ağırlığı tasarımında, yapıyı kullanmakta zorlandı
    • Buna karşılık, sonlu cisim Kakeya ve Nikodym problemleri gibi cebirsel yapıya sahip problemlerde çok iyi sonuç verdi
  • Kakeya probleminde ikinci dereceden kalıntı temelli optimal yapıyı yeniden keşfetti ve 3 boyutta küçük bir iyileştirme sağladı
    • Gemini'nin Deep Think özelliğiyle gayriresmî bir ispat bulundu ve AlphaProof ile Lean biçimsel ispatına dönüştürüldü
    • 4 boyutlu iyileştirme önerisinin mevcut Bukh–Chao makalesi ile aynı yapıda olduğu anlaşıldı
  • Nikodym probleminde yeni bir 3 boyutlu yapı keşfedildi, ancak bunun rastgele yapıdan daha zayıf olduğu doğrulandı
    • Bunun üzerine hibrit bir yapı geliştirilerek performans artırıldı; takip makalesi planlanıyor

Genel önem

  • AlphaEvolve, büyük ölçekli matematiksel keşfin otomasyonu için güçlü bir olasılık ortaya koyuyor
    • Mevcut optimizasyon araçlarına kıyasla ölçeklenebilirlik, uyarlanabilirlik ve yorumlanabilirlik açısından üstün
    • Bazı problemlerde yeni yapılara ve ispatlara yol açtı
  • Gelecekte matematik araştırmalarında yapay zeka tabanlı keşif ile insan doğrulamasının iş birliği modelinin yerleşmesi mümkün görünüyor

1 yorum

 
GN⁺ 2025-11-08
Hacker News yorumu
  • LLM hayranlarının her seferinde buna ‘devrim’ diyerek abartması yorucu, ama bu örnek LLM’lerin mevcut yeteneklerinin araştırmada iyi kullanıldığı bir vaka
    Matematik problemini bir kodlama ajanı problemine dönüştürerek çözmüşler; bu yaklaşımın başka alanlara da genişletilebileceği görülüyor
    AlphaEvolve sisteminin de mevcut ajanlara göre bazı iyileştirmeleri var gibi. Yapay zeka her yıl istikrarlı biçimde ilerliyor ama ne taraftarların ne de şüphecilerin abartısı faydalı

    • Bu tür yakınmalar da sürekli tekrar ediyor gibi. Hoşuna gitmiyorsa bakmayabilirsin, değil mi?
      İnsanların hype cycle’ı keyifle izledikleri an farklı. Birine artık bayat gelmiş olsa da, başka biri için LLM ile matematik arasındaki bağlantı yeni olabilir. Bu tür ilham uzun vadede faydalı olabilir
    • LLM şüphecileri de her seferinde hayranlara saldırıp ‘AI balonu’ diye kendi kendini tatmin eden bir dünya kurmaya çalışıyor
      Yine de bu çalışma LLM’in iyi kullanıldığı bir örnek. Artık haber değeri bile taşımayan pek çok pratik kullanım var. Hayranları var diye her seferinde onları eleştirmek gerekmiyor
  • Bu çalışma, LLM’lerin ‘yalnızca daha önce gördüğü problemleri çözdüğü’ iddiasına bir yanıt olabilir gibi görünüyor
    LLM geliştiricilerini dinlerseniz, eğitim sonrasındaki RL sürecinin basit bir Markov chain’in ötesine geçen bir world model oluşturduğunu söylüyorlar
    Sonraki adım, Genie 3 gibi modellerin üstüne benzer yetenekler inşa etmek

    • Blogda alıntılanan makalenin 2. bölümüne bakarsanız, LLM evrimsel döngüde bir mutation function olarak kullanılıyor
      LLM temel araç olsa da, bu başarının payı daha çok evolutionary optimization tarafında
    • Bu çalışmanın böyle bir iddiayı çürüttüğünü söylemek zor. Hâlâ uzmanların titiz müdahalesi gerekiyor ve LLM dışı düşünme de vazgeçilmez
    • AlphaEvolve, LLM’in kendisi değil; LLM’i kod üretiminde kullanan bir evrimsel kodlama ajanı
      DeepMind bloguna göre AlphaGo ve AlphaFold gibi ‘Alpha’ serisinin devamı niteliğinde
      Bu yaklaşım Chollet’nin ARC-AGI testinde de iyi çalışabilir gibi. Ama Tao’nun ‘extremize’ ifadesini kullanması matematiksel terim olarak biraz tuhaf geliyor
    • Bu yazıya bakılırsa, makaledeki çözümlerin de sonuçta mevcut literatürde zaten yer almış örnekler olma ihtimali var
    • “LLM yalnızca gördüğü problemleri çözer” iddiası aşırı basit bir çerçeve
      Bu çalışma, hızlı doğrulama ve kötü çözümleri budama yapılabilen problemlere uygun. Buna karşılık insan yazılım geliştirmesinde tasarım önyargısı, yavaş evrim ve test zorluğu gibi nedenlerle bu yaklaşım daha zor
  • Daniel Litt’in işaret ettiği gibi, bu yalnızca ‘Compute’’un büyük ölçekte ilk kez devreye sokulduğu bir örnek olabilir
    AlphaEvolve’un bazı eşitsizlikleri insanlar ve Moore’s Law ile de kolayca iyileştirilebilir
    İlgili makale burada

  • Matematik altyapısı zayıf olanlar için özet isteyen bir yorum vardı

    • Uzman değilim ama özetlersem: Terence Tao dünya çapında bir matematikçi, AlphaEvolve ise Google’ın LLM tabanlı optimizasyon aracı
      LLM, Python kodunda mutasyon üretmek için kullanılıyor ve hatalı denemeler otomatik olarak budanıyor
      67 problem test edilmiş ve sık sık uzman düzeyinde sonuçlar üretilmiş. Avantajları ölçeklenebilirlik, sağlamlık ve yorumlanabilirlik
      Ancak eğitim verisinde bulunan problemlerde hızlı yakınsama görüldü; problem tanımı gevşek olunca sistem bu boşlukları ‘istismar’ da edebildi
      Bazı matematik alanlarında (ör. analitik sayı teorisi) performansı düşüktü. Yine de insanların yararlanabileceği fikirler sunuyor
    • Kısacası, LLM’i insanın matematiksel düşünme döngüsüne ekleyince araştırma düzeyinde matematik yapılabildi
      Her alanda eşit derecede güçlü değildi ama Ramanujan veya Erdős tarzı, hesaplama ağırlıklı problem çözümüne daha uygun bir yaklaşımdı
  • Kanepe problemi’nin (sofa problem) çözüldüğünü bilmiyordum. İlgili makale burada

  • Yazıda en ilginç bulduğum şey, yazarın sözünü ettiği ‘robustness’ kavramıydı
    AlphaEvolve, belirli bir alan bilgisi olmadan da çeşitli problemlere kolayca uygulanmış
    Ancak yazılım dünyasında ‘robustness’ genelde ‘hata toleransı’ anlamına gelir; burada ‘adaptability’ daha uygun görünüyor
    LLM’in gücü, karmaşık modelleme olmadan metin tabanlı entegrasyon sağlayabilmesi. Görüntü işleme biraz daha ilerlerse oyun AI’ı gibi alanlar da açılabilir

    • Nitekim yazar metni sonradan düzenleyip ‘robustness’ı kaldırmış ve yerine ‘adaptability’ yazmış
  • Tao’nun “sorun prompt’ta olabilir” demesi oldukça cömert bir tavır
    Diğer ML araştırmalarında performans düşük çıkınca “hyperparameter tuning’i kötü yaptık” türü bir özeleştiri pek görülmez

    • Yine de makale değerlendirme sürecinde böyle eleştiriler yaygındır. Bu ise daha çok keşif amaçlı bir araştırma notu olduğu için bağlam farklı
    • Gerçekte pek çok algoritma iyileştirmesi, yetersiz baseline tuning ya da istatistiksel işlem sorunlarından çıkıyor. Bu açıdan Tao aslında epistemik alçakgönüllülük göstermiş oldu
  • Makalenin 44.2 bölümündeki mantık bulmacası deneyi dikkat çekiciydi
    AlphaEvolve, üç ‘muhafız’la (melek, şeytan, kapıcı) etkileşime girerek en iyi stratejiyi bulmaya çalışıyordu; ama sonunda başka bir LLM’i prompt injection ile kandırıp tam puan aldı
    Bu süreçte AE kendi kendine “mantıksal karmaşıklığı azaltmak yerine simülasyonun kendisine saldıralım” önerisini getirdi

    • Asıl nokta, AE’nin “mantık bulmacasının kurallarını bozup simülasyonu hackleyelim” fikrini üretmiş olması
    • Son enjeksiyon başarısız olsaydı, sırada belki de ‘cehennemin kapısını’ açmak vardı
    • Bir AI’ın başka bir AI’ı kandırarak problemi çözmesi gerçekten şeytani
      Geçmişteki kodlama benchmark sızıntısı vakası gibi tesadüf değildi; bu kez kasıtlı bir saldırı vardı
  • Bu çalışma modern çağın Gauss’un matematik laboratuvarı gibi
    Birden çok matematikçi yerine desen arayan elektronik bir ekip çalıştırıp, çıkan sonuçlara bakarak ispat denemek gibi

  • Dürüst olmak gerekirse, Terence Tao söylüyorsa insan ister istemez inanıyor