- GPT-5.4 Pro, Kevin Barreto ve Liam Price ile iş birliği içinde hipergraphlarla ilgili Ramsey tipi bir problemi çözdü
- Problemi öneren Will Brian, çözümün doğruluğunu doğruladı; tüm konuşma kaydı ile yapay zekanın nihai açıklama dokümanı paylaşıldı
- Çözüm, mevcut alt sınır kurgusundaki verimsizliği ortadan kaldırıp üst sınırın simetrik yapısını ortaya koyarak, Ramsey teorisinde nadir görülen bir tutarlılık sağladı
- Ardından FrontierMath: Open Problems çerçevesinde birden fazla model aynı problemi çözdü ve bunun yapay zekanın matematiksel akıl yürütme yeteneğini doğrulama aracı olarak geçerliliği gösterildi
- Bu başarı, yapay zekanın çözülmemiş matematik problemlerine somut katkı sunabileceğini gösteren bir örnek olarak değerlendiriliyor
Hipergraphlardaki Ramsey tipi problemin çözümü
- GPT-5.4 Pro, Kevin Barreto ve Liam Price ile iş birliği içinde, hipergraphlarla ilgili zor bir Ramsey tipi problemi çözdü
- Problemi öneren Will Brian, çözümün doğruluğunu doğruladı
- Çözüm sürecinin tüm konuşma kaydı ile GPT-5.4 Pro’nun nihai açıklama dokümanı kamuya açıldı
- Brian, bu çözümün mevcut alt sınır kurgusundaki verimsizliği ortadan kaldırdığını ve üst sınır kurgusunun karmaşıklığını ve simetrik yapısını gösterdiğini değerlendirdi
- Alt sınır ile üst sınırın tutarlı biçimde örtüştüğü bu sonuç, Ramsey teorisi problemlerinde nadir görülen bir tutarlılık düzeyi sağlıyor
- Bu sonucu bir makale haline getirmeyi planlıyor; buna yapay zekanın fikirlerinden türeyen ek araştırmalar da dahil olabilir
- Daha sonra Epoch AI, FrontierMath: Open Problems test çerçevesini tamamlayarak aynı problemi birden fazla modele uyguladı
- Opus 4.6 (max), Gemini 3.1 Pro ve GPT-5.4 (xhigh) modelleri de problemi çözmeyi başardı
- Bu da FrontierMath ortamının yapay zeka modellerinin matematiksel akıl yürütme yeteneğini değerlendirmede geçerli olduğunu gösteriyor
Problemin tanımı
- Problem, sonsuz seri kümelerinin eşzamanlı yakınsaklığı araştırmasında ortaya çıkan (H(n)) dizisinin alt sınırını iyileştirmeye odaklanıyor
- Bir hipergraphın ((V, \mathcal H)), büyüklüğü (n) olan bir partition içerdiğini söylemek,
(D \subseteq V), (\mathcal P \subseteq \mathcal H) olacak şekilde (|D| = n) bulunması ve
(D)’nin her elemanının tam olarak bir (\mathcal P) elemanında yer alması anlamına geliyor
- (H(n)), izole tepe noktası bulunmayan ve büyüklüğü (n)’den büyük bir partition içermeyen bir hipergraphın sahip olabileceği en büyük tepe noktası sayısı (k) olarak tanımlanıyor
- Bilinen (H(n)) alt sınırının büyük olasılıkla optimal olmadığı ve yeni bir hipergraph kurgusuyla iyileştirilebileceği düşünülüyor
- Hedef, (H(n) \ge c \cdot k_n) koşulunu sağlayan bir algoritma bulmak ((c > 1))
- (k_n), (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor}) özyinelemesiyle tanımlanıyor
Problem kurulum aşamaları
-
Warm-up aşaması
- Halihazırda bilinen çözümü olan (n) değerleri için hipergraph kurma
- Koşullar: (|V| ≥ 64), (|H| ≤ 20), 20’den büyük bir partition yok
-
Single Challenge aşaması
- Bilinen çözümü olmayan (n) değerleri için aynı koşullarda hipergraph bulma görevi
- Koşullar: (|V| ≥ 66), (|H| ≤ 20), 20’den büyük bir partition yok
-
Full Problem aşaması
- Tüm (n) değerleri için çalışan genel bir algoritma isteniyor
- Girdi (n) için (H(n) ≥ c \cdot k_n) koşulunu sağlayan bir hipergraph üretmeli
- (n ≤ 100) olduğunda sıradan bir dizüstü bilgisayarda 10 dakika içinde çalışabilmeli
Matematikçilerin değerlendirmesi
- Bu probleme aşina matematikçilerin sayısı yaklaşık 10 kişi düzeyinde; bunların önemli bir kısmı alan araştırmacısı
- Problemi fiilen çözmeyi denemiş matematikçilerin sayısının 5–10 kişi civarında olduğu tahmin ediliyor
- Bir uzmanın problemi çözmesi için beklenen süre 1–3 ay
- Çözümün, uzman akademik dergilerde yayımlanabilecek düzeyde olduğu değerlendiriliyor
- Problemin zenginliği nedeniyle, çözümün yeni matematiksel araştırmalara yol açma olasılığı yüksek
- Belirtilen koşullar altında problemin çözülebilme olasılığı %95–99 olarak değerlendiriliyor
1 yorum
Hacker News yorumları
Birçok insanın “LLM’ler gerçek yaratıcılığa sahip olamaz” diye kesin konuşmasını görmek şaşırtıcı
Sadece “eğitim verisinde yoktu, o yüzden imkânsız” demek yetersiz. Zaten bunun pek çok karşı örneği var
O hâlde neden bazı yeni görevlerin mümkün, bazılarının ise imkânsız olduğunu düşündüğümüze dair bir gerekçe lazım
Eğer ‘yenilik’in bir süreklilik üzerinde olduğunu kabul ediyorsak, çizginin nereye çekildiğini ve hangi tür kanıtın fikri değiştireceğini merak ediyorum
Ama karşı argümanlar da var. Matematik olimpiyatında altın madalya alan modeli gördükten sonra ilk iddiayı bıraktım
Ayrıca RL ve bellek eklemeleriyle ikinci sınır da aşılabilir gibi görünüyor
Belki de büyük LLM’ler bilgiyi insanlar gibi içselleştirebilir
İlgili örnek: METR blog yazısı
İnsanlar “gerçek yenilik”i fazla abartılı tanımlıyor — örneğin süperiletken formülü ya da yeni ilaç geliştirme gibi
Oysa ayakkabı bağlamanın yeni bir yolu da biçimsel olarak ‘yenilik’tir
LLM’ler bu tür küçük problemleri sayısız kez çözebilir, ama bunlar insanların hayran kalacağı türden anlamlı inovasyonlar olmayabilir
Performans ek yükünü gerekçe göstererek bunu yerinde bir şekilde reddetti ve bambaşka bir yaklaşım sundu
Aşırı yeni bir problem değildi ama oldukça yaratıcı bir çözüm olduğu için şaşırttı
Proje görseli
Bu sadece ezber değil; genelleştirilmiş işlemi sinir ağı içindeki devrelerde içselleştirmiş olmaları
AI zor problemleri kendi başına çözebilirse inanırım diye düşünüyordum; bu sonuç gerçekten doğruysa artık inanır biri gibi hissediyorum
Daha fazla örnek görmek istiyorum ama dünya gerçekten yeni ve ilginç bir hâle geliyor
Ama kod kalitesi gibi tanımı muğlak alanlarda halüsinasyon artıyor
AlphaGo’daki gibi kendi kendine öğrenen bir değer fonksiyonu olmadığı için, yalnızca RL ile sınırlar var
AI durmadan ‘yeterince iyi’ içerik üretiyor ama gerçek etki kayboluyor
İnsanların birbirine verdiği iyi şeyler azalırken, kötü olanların büyütüldüğü hissi var
İnsanların çoğu da böyle problemleri çözemiyor ama AI zaten genel bilgi işinde olağanüstü
Bu ölçüte göre bakarsak, bu daha çok AGI ya da ASI tanımına yakın
Bunun gerçekten nasıl bir problem olduğunu anlamak için uzman doğrulaması gerekli
İnsanın özel olduğuna dair temel varsayımın hâlâ çok güçlü olduğunu hissediyorum
“Sadece birçok deneme yapınca oluyor” açıklamasının insanlar için de geçerli olabileceği yeterince düşünülmüyor
Bilimsel düşünceye önem veren topluluklarda bile insan istisnacılığı derin şekilde yerleşmiş durumda
AI kendi başına hedef koyamıyor ya da başarıyı fark edemiyor
Büyük maliyetle elde edilen şey sadece küçük bir matematiksel ilerleme olabilir
Ben işlevselciyim ama LLM’lerdeki ‘zekâ gibi görünen şey’in gerçek zekâ olduğunu düşünmüyorum
GPT‑5.4 Pro ile yapılan tüm konuşma ve sonuç raporu yayımlandı
Tam konuşma / Sonuç özeti
Ayrıca kullanıcının arada token kullanımını güncelleyip bağlamı genişletme biçimi de ilginç
Opus 4.6’nın yaklaşık 250 bin token tüketmiş olması, token sayısını problem zorluğunun bir göstergesi olarak hayal etmeye sevk ediyor
Bugün yaptığım bir React refactor’un matematikteki zor bir problemin yarısı kadar zor sayılması komik
Bazı problemleri dünyada sadece 5-10 kişi denemiş olabilir
Motivasyon eksikliği nedeniyle tamamlanmamış yazılımlar gibi, matematik problemleri de sırf deneyen az olduğu için çözümsüz kalmış olabilir
Yine de AI’ın böyle problemleri çözmesi mucize gibi bir şey
Bağlam büyüdükçe maliyet artar ve sağlayıcılar da birim fiyatı yükseltebilir
AI’ın yetenekleri, eğitildiği maliyet fonksiyonu tarafından belirlenir
Sonuçta zekâ, karmaşık bir maliyet fonksiyonunu minimize etme sürecidir
Matematik ve kodlama gibi otomatik doğrulamanın mümkün olduğu alanlarda, RLVR benzeri yaklaşımlar hızla gelişecektir
Ama sosyal ödülün ya da belirsizliğin yüksek olduğu alanlarda ilerleme yavaş olabilir
Örneğin karmaşık sayıların ortaya çıkışı, ifade optimizasyonunun bir sonucu olarak da görülebilir
Alan uzmanları, kendi problem çözme yöntemlerini LLM’lere öğretiyor
Sonunda LLM’ler onların düşünme kalıplarını taklit ederek problem çözer hâle geliyor
Mevcut ispatları yeniden örnekleme yoluyla çözülebilecek çok problem olduğunu düşünüyorum
İnsanı delirtecek kadar tekrarlı aramayı makineler inatla sürdürebilir
Büyük bir ilerleme olmayabilir ama bir varsayımı teoreme dönüştürme rolünü üstlenebilir
Tamamen yeni bir bakış açısı açan durumlar nadir
Bu, token israfı da olabilir
Epoch’un Open Problems sayfasında 15 problem ve zorluk sınıflandırması var
Bu kez çözülen problem ‘moderately interesting’ seviyesinde; yani en kolay tarafa yakın
Yine de çözülmeden önce kamuya açık bir problem olması etkileyici
Bundan sonra aynı seviyedeki kalan 3 problemin ne kadar hızlı çözüleceğini merak ediyorum
Başlık biraz yanıltıcı olabilir
Asıl başlık “A Ramsey-style Problem on Hypergraphs” ve bunu çözen yalnızca GPT‑5.4 değil, birden fazla güncel model olmuş
Yine de hâlâ harika bir başarı