GPT-5.4 Pro, hipergraphlardaki Ramsey tipi matematik problemini çözdü

(epoch.ai)

2 puan yazan GN⁺ 2026-03-25 | 1 yorum | WhatsApp'ta paylaş

GPT-5.4 Pro, Kevin Barreto ve Liam Price ile iş birliği içinde hipergraphlarla ilgili Ramsey tipi bir problemi çözdü
Problemi öneren Will Brian, çözümün doğruluğunu doğruladı; tüm konuşma kaydı ile yapay zekanın nihai açıklama dokümanı paylaşıldı
Çözüm, mevcut alt sınır kurgusundaki verimsizliği ortadan kaldırıp üst sınırın simetrik yapısını ortaya koyarak, Ramsey teorisinde nadir görülen bir tutarlılık sağladı
Ardından FrontierMath: Open Problems çerçevesinde birden fazla model aynı problemi çözdü ve bunun yapay zekanın matematiksel akıl yürütme yeteneğini doğrulama aracı olarak geçerliliği gösterildi
Bu başarı, yapay zekanın çözülmemiş matematik problemlerine somut katkı sunabileceğini gösteren bir örnek olarak değerlendiriliyor

Hipergraphlardaki Ramsey tipi problemin çözümü

GPT-5.4 Pro, Kevin Barreto ve Liam Price ile iş birliği içinde, hipergraphlarla ilgili zor bir Ramsey tipi problemi çözdü
- Problemi öneren Will Brian, çözümün doğruluğunu doğruladı
- Çözüm sürecinin tüm konuşma kaydı ile GPT-5.4 Pro’nun nihai açıklama dokümanı kamuya açıldı
Brian, bu çözümün mevcut alt sınır kurgusundaki verimsizliği ortadan kaldırdığını ve üst sınır kurgusunun karmaşıklığını ve simetrik yapısını gösterdiğini değerlendirdi
- Alt sınır ile üst sınırın tutarlı biçimde örtüştüğü bu sonuç, Ramsey teorisi problemlerinde nadir görülen bir tutarlılık düzeyi sağlıyor
- Bu sonucu bir makale haline getirmeyi planlıyor; buna yapay zekanın fikirlerinden türeyen ek araştırmalar da dahil olabilir
Daha sonra Epoch AI, FrontierMath: Open Problems test çerçevesini tamamlayarak aynı problemi birden fazla modele uyguladı
- Opus 4.6 (max), Gemini 3.1 Pro ve GPT-5.4 (xhigh) modelleri de problemi çözmeyi başardı
- Bu da FrontierMath ortamının yapay zeka modellerinin matematiksel akıl yürütme yeteneğini değerlendirmede geçerli olduğunu gösteriyor

Problemin tanımı

Problem, sonsuz seri kümelerinin eşzamanlı yakınsaklığı araştırmasında ortaya çıkan (H(n)) dizisinin alt sınırını iyileştirmeye odaklanıyor
- Bir hipergraphın ((V, \mathcal H)), büyüklüğü (n) olan bir partition içerdiğini söylemek, (D \subseteq V), (\mathcal P \subseteq \mathcal H) olacak şekilde (|D| = n) bulunması ve (D)’nin her elemanının tam olarak bir (\mathcal P) elemanında yer alması anlamına geliyor
- (H(n)), izole tepe noktası bulunmayan ve büyüklüğü (n)’den büyük bir partition içermeyen bir hipergraphın sahip olabileceği en büyük tepe noktası sayısı (k) olarak tanımlanıyor
Bilinen (H(n)) alt sınırının büyük olasılıkla optimal olmadığı ve yeni bir hipergraph kurgusuyla iyileştirilebileceği düşünülüyor
- Hedef, (H(n) \ge c \cdot k_n) koşulunu sağlayan bir algoritma bulmak ((c > 1))
- (k_n), (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor}) özyinelemesiyle tanımlanıyor

Problem kurulum aşamaları

Warm-up aşaması
- Halihazırda bilinen çözümü olan (n) değerleri için hipergraph kurma
- Koşullar: (|V| ≥ 64), (|H| ≤ 20), 20’den büyük bir partition yok
Single Challenge aşaması
- Bilinen çözümü olmayan (n) değerleri için aynı koşullarda hipergraph bulma görevi
- Koşullar: (|V| ≥ 66), (|H| ≤ 20), 20’den büyük bir partition yok
Full Problem aşaması
- Tüm (n) değerleri için çalışan genel bir algoritma isteniyor
- Girdi (n) için (H(n) ≥ c \cdot k_n) koşulunu sağlayan bir hipergraph üretmeli
- (n ≤ 100) olduğunda sıradan bir dizüstü bilgisayarda 10 dakika içinde çalışabilmeli

Matematikçilerin değerlendirmesi

Bu probleme aşina matematikçilerin sayısı yaklaşık 10 kişi düzeyinde; bunların önemli bir kısmı alan araştırmacısı
Problemi fiilen çözmeyi denemiş matematikçilerin sayısının 5–10 kişi civarında olduğu tahmin ediliyor
Bir uzmanın problemi çözmesi için beklenen süre 1–3 ay
Çözümün, uzman akademik dergilerde yayımlanabilecek düzeyde olduğu değerlendiriliyor
Problemin zenginliği nedeniyle, çözümün yeni matematiksel araştırmalara yol açma olasılığı yüksek
Belirtilen koşullar altında problemin çözülebilme olasılığı %95–99 olarak değerlendiriliyor

1 yorum

GN⁺ 2026-03-25

Hacker News yorumları

Birçok insanın “LLM’ler gerçek yaratıcılığa sahip olamaz” diye kesin konuşmasını görmek şaşırtıcı
Sadece “eğitim verisinde yoktu, o yüzden imkânsız” demek yetersiz. Zaten bunun pek çok karşı örneği var
O hâlde neden bazı yeni görevlerin mümkün, bazılarının ise imkânsız olduğunu düşündüğümüze dair bir gerekçe lazım
Eğer ‘yenilik’in bir süreklilik üzerinde olduğunu kabul ediyorsak, çizginin nereye çekildiğini ve hangi tür kanıtın fikri değiştireceğini merak ediyorum
- Kendi soruma cevap vermeye çalışırsam, LLM’lerin temel sınırları hakkında mantıksal argümanlar da var
  1. İnsan verisiyle eğitildikleri için insanın sınırlarını taklit ederler
  2. Deneyimden öğrenmezler
    Ama karşı argümanlar da var. Matematik olimpiyatında altın madalya alan modeli gördükten sonra ilk iddiayı bıraktım
    Ayrıca RL ve bellek eklemeleriyle ikinci sınır da aşılabilir gibi görünüyor
    Belki de büyük LLM’ler bilgiyi insanlar gibi içselleştirebilir
    İlgili örnek: METR blog yazısı
- LLM’ler özünde her şeyi üretebilir. Sadece ürettikleri şeyi anlamazlar
  İnsanlar “gerçek yenilik”i fazla abartılı tanımlıyor — örneğin süperiletken formülü ya da yeni ilaç geliştirme gibi
  Oysa ayakkabı bağlamanın yeni bir yolu da biçimsel olarak ‘yenilik’tir
  LLM’ler bu tür küçük problemleri sayısız kez çözebilir, ama bunlar insanların hayran kalacağı türden anlamlı inovasyonlar olmayabilir
- macOS’te uygulama pencerelerini ‘şeffaf biçimde görmeyi’ sağlayan bir yardımcı program yapıyordum, Claude Code bana ScreenCaptureKit kullanmamayı önerdi
  Performans ek yükünü gerekçe göstererek bunu yerinde bir şekilde reddetti ve bambaşka bir yaklaşım sundu
  Aşırı yeni bir problem değildi ama oldukça yaratıcı bir çözüm olduğu için şaşırttı
  Proje görseli
- LLM’lerin yeni çarpma problemlerini çözebilmesinin nedeni, eğitim sırasında çok sayıda çarpma örneği görüp sıkıştırılmış soyut bir strateji öğrenmiş olmaları
  Bu sadece ezber değil; genelleştirilmiş işlemi sinir ağı içindeki devrelerde içselleştirmiş olmaları
- Çoğu icat, mevcut üç fikrin interpolasyonu sonucudur. Bu sistemler bunu çok iyi yapıyor
AI zor problemleri kendi başına çözebilirse inanırım diye düşünüyordum; bu sonuç gerçekten doğruysa artık inanır biri gibi hissediyorum
Daha fazla örnek görmek istiyorum ama dünya gerçekten yeni ve ilginç bir hâle geliyor
- Matematik ve kodlama yarışması problemleri, kuralların açık ve doğrulamanın kolay olması nedeniyle öğrenmeye elverişli
  Ama kod kalitesi gibi tanımı muğlak alanlarda halüsinasyon artıyor
  AlphaGo’daki gibi kendi kendine öğrenen bir değer fonksiyonu olmadığı için, yalnızca RL ile sınırlar var
- “Yeni ve ilginç bir dünya”dan ziyade, bundan sonra sonsuz yeniden üretim çağının geleceğini düşünüyorum
  AI durmadan ‘yeterince iyi’ içerik üretiyor ama gerçek etki kayboluyor
  İnsanların birbirine verdiği iyi şeyler azalırken, kötü olanların büyütüldüğü hissi var
- LLM sadece bir remixer. Geçmişte var olan karakter kombinasyonlarını tahmin ediyor; tamamen yeni desenleri kendi başına üretmiyor
- Neden ‘zor problem çözme’nin AI için ölçüt alındığını merak ediyorum
  İnsanların çoğu da böyle problemleri çözemiyor ama AI zaten genel bilgi işinde olağanüstü
  Bu ölçüte göre bakarsak, bu daha çok AGI ya da ASI tanımına yakın
- Ünlü VC’ler, DeepSeek’in elektromanyetizmaya giriş seviyesinde bir problemi çözdüğünü söyleyip ona “süper dâhi model” dedi ama bu abartılı görünüyor
  Bunun gerçekten nasıl bir problem olduğunu anlamak için uzman doğrulaması gerekli
İnsanın özel olduğuna dair temel varsayımın hâlâ çok güçlü olduğunu hissediyorum
“Sadece birçok deneme yapınca oluyor” açıklamasının insanlar için de geçerli olabileceği yeterince düşünülmüyor
Bilimsel düşünceye önem veren topluluklarda bile insan istisnacılığı derin şekilde yerleşmiş durumda
- İnsanlar, yalnızca 20 watt ile deneyim olmadan akıl yürütebilme yeteneğine sahip. Bu kesinlikle özel bir şey
- Bu başarı da sonuçta insanın problemi kurması ve AI ile işbirliği içinde doğrulaması sayesinde anlamlı
  AI kendi başına hedef koyamıyor ya da başarıyı fark edemiyor
  Büyük maliyetle elde edilen şey sadece küçük bir matematiksel ilerleme olabilir
- İnsanın özel olması sadece bir inanç değil, sinirbilim ve bilişsel bilimin ele aldığı ampirik bir gerçek
  Ben işlevselciyim ama LLM’lerdeki ‘zekâ gibi görünen şey’in gerçek zekâ olduğunu düşünmüyorum
- İnsanın benzersizliğini anlamak için Orchestrated Objective Reduction teorisine bakmaya değer
- Mesele insanın özel olması değil; istatistiksel modeller kutunun dışında düşünmekte neredeyse hiç başarılı değil demek
GPT‑5.4 Pro ile yapılan tüm konuşma ve sonuç raporu yayımlandı
Tam konuşma / Sonuç özeti
- Verilen solution template dosyasının gerçek içeriğini merak ediyorum
  Ayrıca kullanıcının arada token kullanımını güncelleyip bağlamı genişletme biçimi de ilginç
Opus 4.6’nın yaklaşık 250 bin token tüketmiş olması, token sayısını problem zorluğunun bir göstergesi olarak hayal etmeye sevk ediyor
Bugün yaptığım bir React refactor’un matematikteki zor bir problemin yarısı kadar zor sayılması komik
- Şaka gibi ama matematik doğası gereği çok kapalı bir alan, bu yüzden gerçekten öyle olabilir
  Bazı problemleri dünyada sadece 5-10 kişi denemiş olabilir
  Motivasyon eksikliği nedeniyle tamamlanmamış yazılımlar gibi, matematik problemleri de sırf deneyen az olduğu için çözümsüz kalmış olabilir
  Yine de AI’ın böyle problemleri çözmesi mucize gibi bir şey
- Bağlam yönetimi önemli. Token israfı performans düşüşüne yol açar
  Bağlam büyüdükçe maliyet artar ve sağlayıcılar da birim fiyatı yükseltebilir
- Opus 4.6 ile GPT‑5.4 Pro çıktılarının karşılaştırılmasında, ilkinin daha çeşitli doğrulama girişimleri ve düşünce akışı göstermesi ilginçti
- Matematikte bir değişken bir token eder ama yazılımda okunabilirlik nedeniyle çok daha fazla token gerekir
- Token sayısı karmaşıklığın göstergesi değildir. Veri merkezli problemler, basit düşünme tipi problemlere göre çok daha fazla token tüketir
AI’ın yetenekleri, eğitildiği maliyet fonksiyonu tarafından belirlenir
Sonuçta zekâ, karmaşık bir maliyet fonksiyonunu minimize etme sürecidir
Matematik ve kodlama gibi otomatik doğrulamanın mümkün olduğu alanlarda, RLVR benzeri yaklaşımlar hızla gelişecektir
Ama sosyal ödülün ya da belirsizliğin yüksek olduğu alanlarda ilerleme yavaş olabilir
- “Maliyet fonksiyonuyla ifade edilemeyen problemler de vardır” itirazı geliyor
  Örneğin karmaşık sayıların ortaya çıkışı, ifade optimizasyonunun bir sonucu olarak da görülebilir
Alan uzmanları, kendi problem çözme yöntemlerini LLM’lere öğretiyor
Sonunda LLM’ler onların düşünme kalıplarını taklit ederek problem çözer hâle geliyor
Mevcut ispatları yeniden örnekleme yoluyla çözülebilecek çok problem olduğunu düşünüyorum
İnsanı delirtecek kadar tekrarlı aramayı makineler inatla sürdürebilir
Büyük bir ilerleme olmayabilir ama bir varsayımı teoreme dönüştürme rolünü üstlenebilir
- Sorun, bu ispatın anlamlı olup olmadığı. Çoğu büyük ihtimalle mevcut paradigma içindeki tekrar olacak
  Tamamen yeni bir bakış açısı açan durumlar nadir
  Bu, token israfı da olabilir
- Bence tüm keşifler kombinatoryal sentez sonucunda ortaya çıkar. Tam bir yokluktan çıkan neredeyse hiçbir şey yoktur
- O hâlde ‘gerçek yenilik’i değerlendirecek bir benchmark tasarımı nasıl yapılmalı diye merak ediyorum
Epoch’un Open Problems sayfasında 15 problem ve zorluk sınıflandırması var
Bu kez çözülen problem ‘moderately interesting’ seviyesinde; yani en kolay tarafa yakın
Yine de çözülmeden önce kamuya açık bir problem olması etkileyici
Bundan sonra aynı seviyedeki kalan 3 problemin ne kadar hızlı çözüleceğini merak ediyorum
- Herhangi bir zor problemin LLM tarafından çözülmesi bana göre zaten bilimkurgu düzeyinde bir olay
Başlık biraz yanıltıcı olabilir
Asıl başlık “A Ramsey-style Problem on Hypergraphs” ve bunu çözen yalnızca GPT‑5.4 değil, birden fazla güncel model olmuş
Yine de hâlâ harika bir başarı

GPT-5.4 Pro, hipergraphlardaki Ramsey tipi matematik problemini çözdü

Hipergraphlardaki Ramsey tipi problemin çözümü

Problemin tanımı

Problem kurulum aşamaları

Warm-up aşaması

Single Challenge aşaması

Full Problem aşaması

Matematikçilerin değerlendirmesi

İlgili okumalar

1 yorum

Hacker News yorumları