2 puan yazan GN⁺ 2026-03-25 | 1 yorum | WhatsApp'ta paylaş
  • GPT-5.4 Pro, Kevin Barreto ve Liam Price ile iş birliği içinde hipergraphlarla ilgili Ramsey tipi bir problemi çözdü
  • Problemi öneren Will Brian, çözümün doğruluğunu doğruladı; tüm konuşma kaydı ile yapay zekanın nihai açıklama dokümanı paylaşıldı
  • Çözüm, mevcut alt sınır kurgusundaki verimsizliği ortadan kaldırıp üst sınırın simetrik yapısını ortaya koyarak, Ramsey teorisinde nadir görülen bir tutarlılık sağladı
  • Ardından FrontierMath: Open Problems çerçevesinde birden fazla model aynı problemi çözdü ve bunun yapay zekanın matematiksel akıl yürütme yeteneğini doğrulama aracı olarak geçerliliği gösterildi
  • Bu başarı, yapay zekanın çözülmemiş matematik problemlerine somut katkı sunabileceğini gösteren bir örnek olarak değerlendiriliyor

Hipergraphlardaki Ramsey tipi problemin çözümü

  • GPT-5.4 Pro, Kevin Barreto ve Liam Price ile iş birliği içinde, hipergraphlarla ilgili zor bir Ramsey tipi problemi çözdü
    • Problemi öneren Will Brian, çözümün doğruluğunu doğruladı
    • Çözüm sürecinin tüm konuşma kaydı ile GPT-5.4 Pro’nun nihai açıklama dokümanı kamuya açıldı
  • Brian, bu çözümün mevcut alt sınır kurgusundaki verimsizliği ortadan kaldırdığını ve üst sınır kurgusunun karmaşıklığını ve simetrik yapısını gösterdiğini değerlendirdi
    • Alt sınır ile üst sınırın tutarlı biçimde örtüştüğü bu sonuç, Ramsey teorisi problemlerinde nadir görülen bir tutarlılık düzeyi sağlıyor
    • Bu sonucu bir makale haline getirmeyi planlıyor; buna yapay zekanın fikirlerinden türeyen ek araştırmalar da dahil olabilir
  • Daha sonra Epoch AI, FrontierMath: Open Problems test çerçevesini tamamlayarak aynı problemi birden fazla modele uyguladı
    • Opus 4.6 (max), Gemini 3.1 Pro ve GPT-5.4 (xhigh) modelleri de problemi çözmeyi başardı
    • Bu da FrontierMath ortamının yapay zeka modellerinin matematiksel akıl yürütme yeteneğini değerlendirmede geçerli olduğunu gösteriyor

Problemin tanımı

  • Problem, sonsuz seri kümelerinin eşzamanlı yakınsaklığı araştırmasında ortaya çıkan (H(n)) dizisinin alt sınırını iyileştirmeye odaklanıyor
    • Bir hipergraphın ((V, \mathcal H)), büyüklüğü (n) olan bir partition içerdiğini söylemek, (D \subseteq V), (\mathcal P \subseteq \mathcal H) olacak şekilde (|D| = n) bulunması ve (D)’nin her elemanının tam olarak bir (\mathcal P) elemanında yer alması anlamına geliyor
    • (H(n)), izole tepe noktası bulunmayan ve büyüklüğü (n)’den büyük bir partition içermeyen bir hipergraphın sahip olabileceği en büyük tepe noktası sayısı (k) olarak tanımlanıyor
  • Bilinen (H(n)) alt sınırının büyük olasılıkla optimal olmadığı ve yeni bir hipergraph kurgusuyla iyileştirilebileceği düşünülüyor
    • Hedef, (H(n) \ge c \cdot k_n) koşulunu sağlayan bir algoritma bulmak ((c > 1))
    • (k_n), (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor}) özyinelemesiyle tanımlanıyor

Problem kurulum aşamaları

  • Warm-up aşaması

    • Halihazırda bilinen çözümü olan (n) değerleri için hipergraph kurma
    • Koşullar: (|V| ≥ 64), (|H| ≤ 20), 20’den büyük bir partition yok
  • Single Challenge aşaması

    • Bilinen çözümü olmayan (n) değerleri için aynı koşullarda hipergraph bulma görevi
    • Koşullar: (|V| ≥ 66), (|H| ≤ 20), 20’den büyük bir partition yok
  • Full Problem aşaması

    • Tüm (n) değerleri için çalışan genel bir algoritma isteniyor
    • Girdi (n) için (H(n) ≥ c \cdot k_n) koşulunu sağlayan bir hipergraph üretmeli
    • (n ≤ 100) olduğunda sıradan bir dizüstü bilgisayarda 10 dakika içinde çalışabilmeli

Matematikçilerin değerlendirmesi

  • Bu probleme aşina matematikçilerin sayısı yaklaşık 10 kişi düzeyinde; bunların önemli bir kısmı alan araştırmacısı
  • Problemi fiilen çözmeyi denemiş matematikçilerin sayısının 5–10 kişi civarında olduğu tahmin ediliyor
  • Bir uzmanın problemi çözmesi için beklenen süre 1–3 ay
  • Çözümün, uzman akademik dergilerde yayımlanabilecek düzeyde olduğu değerlendiriliyor
  • Problemin zenginliği nedeniyle, çözümün yeni matematiksel araştırmalara yol açma olasılığı yüksek
  • Belirtilen koşullar altında problemin çözülebilme olasılığı %95–99 olarak değerlendiriliyor

1 yorum

 
GN⁺ 2026-03-25
Hacker News yorumları
  • Birçok insanın “LLM’ler gerçek yaratıcılığa sahip olamaz” diye kesin konuşmasını görmek şaşırtıcı
    Sadece “eğitim verisinde yoktu, o yüzden imkânsız” demek yetersiz. Zaten bunun pek çok karşı örneği var
    O hâlde neden bazı yeni görevlerin mümkün, bazılarının ise imkânsız olduğunu düşündüğümüze dair bir gerekçe lazım
    Eğer ‘yenilik’in bir süreklilik üzerinde olduğunu kabul ediyorsak, çizginin nereye çekildiğini ve hangi tür kanıtın fikri değiştireceğini merak ediyorum

    • Kendi soruma cevap vermeye çalışırsam, LLM’lerin temel sınırları hakkında mantıksal argümanlar da var
      1. İnsan verisiyle eğitildikleri için insanın sınırlarını taklit ederler
      2. Deneyimden öğrenmezler
        Ama karşı argümanlar da var. Matematik olimpiyatında altın madalya alan modeli gördükten sonra ilk iddiayı bıraktım
        Ayrıca RL ve bellek eklemeleriyle ikinci sınır da aşılabilir gibi görünüyor
        Belki de büyük LLM’ler bilgiyi insanlar gibi içselleştirebilir
        İlgili örnek: METR blog yazısı
    • LLM’ler özünde her şeyi üretebilir. Sadece ürettikleri şeyi anlamazlar
      İnsanlar “gerçek yenilik”i fazla abartılı tanımlıyor — örneğin süperiletken formülü ya da yeni ilaç geliştirme gibi
      Oysa ayakkabı bağlamanın yeni bir yolu da biçimsel olarak ‘yenilik’tir
      LLM’ler bu tür küçük problemleri sayısız kez çözebilir, ama bunlar insanların hayran kalacağı türden anlamlı inovasyonlar olmayabilir
    • macOS’te uygulama pencerelerini ‘şeffaf biçimde görmeyi’ sağlayan bir yardımcı program yapıyordum, Claude Code bana ScreenCaptureKit kullanmamayı önerdi
      Performans ek yükünü gerekçe göstererek bunu yerinde bir şekilde reddetti ve bambaşka bir yaklaşım sundu
      Aşırı yeni bir problem değildi ama oldukça yaratıcı bir çözüm olduğu için şaşırttı
      Proje görseli
    • LLM’lerin yeni çarpma problemlerini çözebilmesinin nedeni, eğitim sırasında çok sayıda çarpma örneği görüp sıkıştırılmış soyut bir strateji öğrenmiş olmaları
      Bu sadece ezber değil; genelleştirilmiş işlemi sinir ağı içindeki devrelerde içselleştirmiş olmaları
    • Çoğu icat, mevcut üç fikrin interpolasyonu sonucudur. Bu sistemler bunu çok iyi yapıyor
  • AI zor problemleri kendi başına çözebilirse inanırım diye düşünüyordum; bu sonuç gerçekten doğruysa artık inanır biri gibi hissediyorum
    Daha fazla örnek görmek istiyorum ama dünya gerçekten yeni ve ilginç bir hâle geliyor

    • Matematik ve kodlama yarışması problemleri, kuralların açık ve doğrulamanın kolay olması nedeniyle öğrenmeye elverişli
      Ama kod kalitesi gibi tanımı muğlak alanlarda halüsinasyon artıyor
      AlphaGo’daki gibi kendi kendine öğrenen bir değer fonksiyonu olmadığı için, yalnızca RL ile sınırlar var
    • “Yeni ve ilginç bir dünya”dan ziyade, bundan sonra sonsuz yeniden üretim çağının geleceğini düşünüyorum
      AI durmadan ‘yeterince iyi’ içerik üretiyor ama gerçek etki kayboluyor
      İnsanların birbirine verdiği iyi şeyler azalırken, kötü olanların büyütüldüğü hissi var
    • LLM sadece bir remixer. Geçmişte var olan karakter kombinasyonlarını tahmin ediyor; tamamen yeni desenleri kendi başına üretmiyor
    • Neden ‘zor problem çözme’nin AI için ölçüt alındığını merak ediyorum
      İnsanların çoğu da böyle problemleri çözemiyor ama AI zaten genel bilgi işinde olağanüstü
      Bu ölçüte göre bakarsak, bu daha çok AGI ya da ASI tanımına yakın
    • Ünlü VC’ler, DeepSeek’in elektromanyetizmaya giriş seviyesinde bir problemi çözdüğünü söyleyip ona “süper dâhi model” dedi ama bu abartılı görünüyor
      Bunun gerçekten nasıl bir problem olduğunu anlamak için uzman doğrulaması gerekli
  • İnsanın özel olduğuna dair temel varsayımın hâlâ çok güçlü olduğunu hissediyorum
    “Sadece birçok deneme yapınca oluyor” açıklamasının insanlar için de geçerli olabileceği yeterince düşünülmüyor
    Bilimsel düşünceye önem veren topluluklarda bile insan istisnacılığı derin şekilde yerleşmiş durumda

    • İnsanlar, yalnızca 20 watt ile deneyim olmadan akıl yürütebilme yeteneğine sahip. Bu kesinlikle özel bir şey
    • Bu başarı da sonuçta insanın problemi kurması ve AI ile işbirliği içinde doğrulaması sayesinde anlamlı
      AI kendi başına hedef koyamıyor ya da başarıyı fark edemiyor
      Büyük maliyetle elde edilen şey sadece küçük bir matematiksel ilerleme olabilir
    • İnsanın özel olması sadece bir inanç değil, sinirbilim ve bilişsel bilimin ele aldığı ampirik bir gerçek
      Ben işlevselciyim ama LLM’lerdeki ‘zekâ gibi görünen şey’in gerçek zekâ olduğunu düşünmüyorum
    • İnsanın benzersizliğini anlamak için Orchestrated Objective Reduction teorisine bakmaya değer
    • Mesele insanın özel olması değil; istatistiksel modeller kutunun dışında düşünmekte neredeyse hiç başarılı değil demek
  • GPT‑5.4 Pro ile yapılan tüm konuşma ve sonuç raporu yayımlandı
    Tam konuşma / Sonuç özeti

    • Verilen solution template dosyasının gerçek içeriğini merak ediyorum
      Ayrıca kullanıcının arada token kullanımını güncelleyip bağlamı genişletme biçimi de ilginç
  • Opus 4.6’nın yaklaşık 250 bin token tüketmiş olması, token sayısını problem zorluğunun bir göstergesi olarak hayal etmeye sevk ediyor
    Bugün yaptığım bir React refactor’un matematikteki zor bir problemin yarısı kadar zor sayılması komik

    • Şaka gibi ama matematik doğası gereği çok kapalı bir alan, bu yüzden gerçekten öyle olabilir
      Bazı problemleri dünyada sadece 5-10 kişi denemiş olabilir
      Motivasyon eksikliği nedeniyle tamamlanmamış yazılımlar gibi, matematik problemleri de sırf deneyen az olduğu için çözümsüz kalmış olabilir
      Yine de AI’ın böyle problemleri çözmesi mucize gibi bir şey
    • Bağlam yönetimi önemli. Token israfı performans düşüşüne yol açar
      Bağlam büyüdükçe maliyet artar ve sağlayıcılar da birim fiyatı yükseltebilir
    • Opus 4.6 ile GPT‑5.4 Pro çıktılarının karşılaştırılmasında, ilkinin daha çeşitli doğrulama girişimleri ve düşünce akışı göstermesi ilginçti
    • Matematikte bir değişken bir token eder ama yazılımda okunabilirlik nedeniyle çok daha fazla token gerekir
    • Token sayısı karmaşıklığın göstergesi değildir. Veri merkezli problemler, basit düşünme tipi problemlere göre çok daha fazla token tüketir
  • AI’ın yetenekleri, eğitildiği maliyet fonksiyonu tarafından belirlenir
    Sonuçta zekâ, karmaşık bir maliyet fonksiyonunu minimize etme sürecidir
    Matematik ve kodlama gibi otomatik doğrulamanın mümkün olduğu alanlarda, RLVR benzeri yaklaşımlar hızla gelişecektir
    Ama sosyal ödülün ya da belirsizliğin yüksek olduğu alanlarda ilerleme yavaş olabilir

    • “Maliyet fonksiyonuyla ifade edilemeyen problemler de vardır” itirazı geliyor
      Örneğin karmaşık sayıların ortaya çıkışı, ifade optimizasyonunun bir sonucu olarak da görülebilir
  • Alan uzmanları, kendi problem çözme yöntemlerini LLM’lere öğretiyor
    Sonunda LLM’ler onların düşünme kalıplarını taklit ederek problem çözer hâle geliyor

  • Mevcut ispatları yeniden örnekleme yoluyla çözülebilecek çok problem olduğunu düşünüyorum
    İnsanı delirtecek kadar tekrarlı aramayı makineler inatla sürdürebilir
    Büyük bir ilerleme olmayabilir ama bir varsayımı teoreme dönüştürme rolünü üstlenebilir

    • Sorun, bu ispatın anlamlı olup olmadığı. Çoğu büyük ihtimalle mevcut paradigma içindeki tekrar olacak
      Tamamen yeni bir bakış açısı açan durumlar nadir
      Bu, token israfı da olabilir
    • Bence tüm keşifler kombinatoryal sentez sonucunda ortaya çıkar. Tam bir yokluktan çıkan neredeyse hiçbir şey yoktur
    • O hâlde ‘gerçek yenilik’i değerlendirecek bir benchmark tasarımı nasıl yapılmalı diye merak ediyorum
  • Epoch’un Open Problems sayfasında 15 problem ve zorluk sınıflandırması var
    Bu kez çözülen problem ‘moderately interesting’ seviyesinde; yani en kolay tarafa yakın
    Yine de çözülmeden önce kamuya açık bir problem olması etkileyici
    Bundan sonra aynı seviyedeki kalan 3 problemin ne kadar hızlı çözüleceğini merak ediyorum

    • Herhangi bir zor problemin LLM tarafından çözülmesi bana göre zaten bilimkurgu düzeyinde bir olay
  • Başlık biraz yanıltıcı olabilir
    Asıl başlık “A Ramsey-style Problem on Hypergraphs” ve bunu çözen yalnızca GPT‑5.4 değil, birden fazla güncel model olmuş
    Yine de hâlâ harika bir başarı