OpenAI araştırmacısı, hiç yaşanmamış bir GPT-5 matematiksel atılımını ilan etti

(the-decoder.com)

1 puan yazan GN⁺ 2025-10-20 | 1 yorum | WhatsApp'ta paylaş

OpenAI araştırmacısı tarafından GPT-5'in çözdüğünü iddia ettiği Erdős problemleri ile ilgili duyuru, topluluk ve sektör temsilcilerinden eleştiri alması üzerine hızla geri çekildi
Bu iddia, onlarca yıldır çözümsüz kabul edilen bir matematik probleminin somut kanıtını, yapay zekânın bağımsız olarak bulduğu gibi yorumlanabilecek bir üslupla dile getirdi
Pratikte GPT-5, var olan araştırmaları yeniden keşfetme düzeyinde kaldı ve gerçek anlamda çözümsüz bir problem için yeni bir çözüm sunmuyordu
Olay, OpenAI'nin güvenilirliğinde düşüş ve doğrulanmamış yapay zeka başarılarının abartılı biçimde duyurulmasına dair endüstri kaygılarını artırdı
Gerçekte GPT-5'in asıl gücü, araştırma makalelerinin aranması ve literatürün derlenmesinde yardımcı bir araç olarak öne çıktı

Olay Özeti

Son dönemde bir OpenAI araştırmacısı, X (eski adıyla Twitter)'de GPT-5'in "10 adet çözümsüz Erdos problemini çözdüğü" ve buna ek olarak 11 problemde ek bir ilerleme sağladığı yönünde çığır açıcı bir başarıyı duyurdu
Bu iddia, GPT-5'in zor bir sayı teorisi problemi için matematiksel bir kanıtı bağımsız olarak türettiği biçiminde anlaşıldı
Birçok OpenAI araştırmacısı benzer içerikte gönderiler yayınlayarak bu yapay zekânın yenilikçi bir bilimsel keşif gerçekleştirilebileceği izlenimini verdi

Topluluk Doğrulaması ve Tartışma

Erdosproblems.com sitesini yöneten matematikçi Thomas Bloom, bu iddiayı hemen çürüttü ve site üzerindeki "open" olarak işaretlenmiş sorunların gerçek anlamda çözümsüz olmadığını açıkladı
- Bu maddeler, Bloom'un kendisinin cevabı bilmediği veya mevcut araştırmaları o anda doğrulayamamış olduğu örneklerden oluşuyordu
- GPT-5 yalnızca daha önce bulunan araştırma sonuçlarını buldu; yeni bir matematiksel çözüm keşfetmedi
Bu durum kamuoyuna netleşince OpenAI araştırmacıları gönderilerini sildi veya içeriği güncelledi
Topluluk ve sektöre önder kişiler, örneğin DeepMind CEO'su Demis Hassabis, bunu "utanılacak bir olay" olarak nitelendirdi; Meta AI'dan Yann LeCun da OpenAI'nin kendi tanıtımına kapıldığına işaret etti
Araştırma ekibi hatasını kabul edip GPT-5'in gerçek rolü konusunda yeniden açıklama yaptı

Sektör Güven Sorunu ve Eleştiri

Bu olayla, OpenAI'nin güvenilirliğinde ve doğrulama süreçlerinde sorunlar sergilediği yönündeki değerlendirme güçlendi
- Özellikle yapay zeka ekosisteminde abartılan beklentiler ve ilişkili hisse senedi yatırımlarındaki yoğun ilgiyle birleşince, doğrulanmamış performans duyurularına dair endişe arttı
Neden sektördeki öncü araştırmacılar doğrulama yapmadan dramatik iddiaları kamuya açıkladı sorusu yanında, OpenAI içindeki organizasyonel bütünlük de tartışma konusu oldu

Gerçek Sonuçlar ve Matematikte AI'nin Rolü

Pratikte GPT-5, özellikle karmaşık ve terim bakımından zengin matematik sorunlarında ilgili makaleleri ve araştırma belgelerini bulma konusunda yardımcı bir rol üstlenmede yararlılığını gösterdi
Matematikçi Terence Tao, yapay zekânın "en yeni çözümsüz sorunun çözümü" olmaktan çok, kapsamlı literatür taraması ve tekrarlayan arama işini büyük ölçüde hızlandıracağı yönündeki beklentinin daha gerçekçi olduğunu belirtti
- Bazı bağımsız ilerleme örnekleri olsa da bugün için güçlü tarafı hâlen makale bulma ve düzenleme süreçlerini otomatikleştirmede destek sunması
Gelecekte matematikte üretken yapay zekanın hız ve otomasyon katkı potansiyeli bulunuyor
- Ancak uzman doğrulaması, sınıflandırma ve sonuç entegrasyonu hala zorunludur

Sonuç

Bu olay, üretken yapay zekanın gerçek sınırlılıkları ve endüstriyel potansiyelinin yanı sıra AI araştırma sonuçlarının abartılı biçimde sunulmasının yarattığı risklerin somutlaştığı bir örnek oldu
Sonuçta GPT-5, çözümsüz matematik problemlerinde devrimci bir atılım olmaktan çok, araştırma materyallerini düzenlemeye yardımcı bir araç olarak potansiyeli ön plana çıkan bir model olarak kaldı

1 yorum

GN⁺ 2025-10-20

Hacker News görüşü

OpenAI ekibine karşı adil olmak için bağlama bakınca durumun o kadar da kötü niyetli olmadığını düşünüyorum
Silinen tweette "GPT-5, 10 tane (önceden çözülmemiş) Erdös problemini çözdü, ayrıca 11 tanesinde daha ilerleme sağladı, onlarca yıldır çözülemeyen problemler" deniyordu
Bu tweet tek başına atılsaydı yanıltıcı olduğunu düşünürdüm, ama aslında bir alıntı tweetti
İlk alıntılanan özgün gönderi (https://x.com/MarkSellke/status/1979226538059931886) "bunu daha da ileri götürüyor" diyordu
Bu tweetin alıntıladığı ikinci özgün gönderide ise (https://x.com/SebastienBubeck/status/1977181716457701775), GPT-5'in literatür taramada çok iyi olduğu ve "aslında 20 yıl önce çözülmüş bir problemi bulup, hâlâ açık problem olarak sınıflandırılan Erdos problemi #339'u 'çözdüğü'" söyleniyordu
Bu zinciri sırayla okuyunca
- SebastienBubeck: "GPT-5 literatür taramada çok iyi, zaten çözülmüş bir çözümü bularak hâlâ açık sanılan bir problemi çözmüş oldu"
- MarkSellke: "Şimdi 10 tane daha yaptı"
- kevinweil: "Başardığımız harika sonuca bakın!"
  Sonuçta bu, alıntı tweet biçiminin yarattığı bir sorun; kevinweil birkaç katman alıntılayınca en baştaki problemi kaçırmış gibi görünüyor (aslında yaptığı şey zaten var olan çözümü bulmaktı) ve okur açısından yanlış anlamaya çok açık bir yapı çıkıyor ortaya
  Bu tür bir hata gayet anlaşılır görünüyor ve tartışmanın biraz abartıldığını düşünüyorum
- Weil'in paylaştığı alıntı tweetin bağlamını yeterince hesaba katmadığı konusunda, aslında Weil'in kendisi de Sellke'nin gönderisini yanlış anladığını doğrudan söylemiş durumda (https://x.com/kevinweil/status/1979270343941591525 adresinde görülebilir)
  Sellke "açık problem olarak sınıflandırılan" demişti, Weil ise "önceden çözülmemiş problemler" ifadesini kullandı; fark burada
- İlk kişi "20 yıl önce zaten çözülmüş olduğunu fark edip problemi 'çözdü'" dedi, ikinci kişi ise "önceden çözülmemiş 10 Erdös problemini çözdü" dedi
  "Önceden çözülmemiş" ifadesinin gerçek bağlamla uyuşmadığını düşünüyorum
- Acaba ben mi yanlış anlıyorum diye merak ettim
  Bu, birkaç ay önce DeepMind'ın “matris çarpımını SOTA'dan daha iyi yapıyor” diye duyurduğu makaleye benziyor
  O zaman Gemini'nin yeni bir optimizasyon çözümü bulduğu söylenmişti, ama duyurudan hemen sonra matematikçiler bunun zaten 30-40 yıl önceki literatürde bulunduğunu belirtmişti; ayrıca bu bilginin Gemini'nin eğitim verisinde yer almış olması da muhtemeldi
- "GPT-5 literatür aramada çok iyi, mevcut bir çözümü olan problemi 'çözdü'" iddiası hakkında
  Bence bu bir hayatta kalma yanlılığı örneği
  Gerçekte GPT-5'in nispeten kolay aramalarda bile başarısız olduğu çok oluyor
  Arama sonucunun doğru olup olmadığını ya zaten yeterince biliyor olmanız ya da bizzat doğrulama yapmanız gerekiyor
  Bana biraz 1000 kez zar atıp her seferinde çift altı geldiğini öven paylaşımları hatırlatıyor
  Bunun benim dünyanın en iyi zar atıcısı olduğum anlamına gelmemesine benzer bir durum
erdosproblems.com'u işleten matematikçi Thomas Bloom'un hemen yaptığı itiraza değiniliyor
Vurguladığı nokta, bunun "çözülmemiş problem (unsolved)" değil, "ben cevabını bilmiyorum (open)" anlamına geldiği
Matematikçilerin 'open' sözcüğünü böyle tanımlaması bana tuhaf geliyor
Benim bilmediğim bir ders kitabı sorusuna da 'açık soru' demiyoruz sonuçta
"GPT-5 literatür inceleme yardımcı aracı olarak faydalı" iddiasına itiraz
Bence pratikte yaptığı şey çoğunlukla çok inandırıcı görünen ama sahte sonuçlar üretmek
Bundan memnun olan insanların hayatı benimkinden çok daha kolay olmalı
Mühendislik matematiği makaleleri gibi kaynakları bulmak için saatlerce kütüphanede didinip, son çare olarak sohbet botuna umut bağladığım oldu
Ama sonunda çıkan sonuçlar tuhaf oluyor, ben de uzun süre tekrar doğrulama yapmak zorunda kalıyorum ve geriye sadece "bunun gerçekten mümkün olması zaten beklenmezdi" hayal kırıklığı kalıyor
Bu deneyimi sadece benim yaşamadığımı da fark ettim
- Sık sık derin literatür taraması yaptığımda, GPT yaklaşık %50 olasılıkla temelsiz kaynaklar uyduruyor (halüsinasyon)
  Üst düzey özet incelemelerde ise bu oran yaklaşık %5 civarında
  Gerçek kaynak çıkan %50'nin yarısı zaten aşina olduğum makaleler, diğer yarısı ise bilmediğim makaleler
  Gerçekten iyi tarafı, bazen daha önce bulunması zor makaleleri keşfetmeyi sağlaması (Google Scholar vb. ile bulunamayanlar dahil)
  Özellikle başka alanlardan ilgili çalışmalar veya az atıf alan kısa özet makaleleri gibi çok çeşitli kaynaklara ulaştırabiliyor
  Sonuçların %75'i işe yaramaz ya da halüsinasyon olsa bile, kalan %25 o kadar büyük değer sağlıyor ki pratikte çok faydalı oluyor
- "Hiç faydalı değil" diye kestirip atmak da abartı gibi
  GPT, 500 bin kelimeyi birkaç dakika içinde tarayıp özet, ayrıntılı yanıt ve her iddia için dayanak da verebilir
  Elbette özete körü körüne güvenmemek, önemli bilgileri mutlaka kaynağa tıklayıp doğrulamak gerekir
  Buna rağmen hâlâ çok güçlü bir arama aracı ve üretkenlik artırıcısı
- Adını hatırlamıyorum ama bununla ilgili bir ilke var
  İnsanlar bildikleri bir konuda gazete haberi görünce tüm açıkları fark edip "bu nasıl haber olmuş" diye düşünüyor
  Ama bilmedikleri konulardaki haberleri eleştirmeden kabul ediyorlar
  ChatGPT konusunda da benzer bir aşırı güven oluşuyor gibi geliyor bana
- Aslında GPT-5 gibi sohbet botlarını arama/literatür inceleme için zorlamaya çalışmak yerine, gerçekten güçlü bir anlamsal (semantic) arama motoru kullanmak daha iyi olabilirdi diye düşünüyorum
  Sohbet botuna özet ya da yanıt ürettirdiğiniz anda halüsinasyon riski hep işin içinde oluyor
  Buna karşılık LLM embedding tabanlı belge aramasında sonucun kendisinin halüsinasyon olma riski yok; ayrıca Google/Bing gibi araçların bulamadığı makaleleri keşfetmek için daha iyi bir yöntem olabilir
  Belki böyle servisler zaten vardır da ben bilmiyorumdur; bunu da hesaba katmak lazım
- Literatür inceleme araçlarıyla ilgileniyorsanız, yüksek lisans arkadaşlarım için yaptığım herkese açık literatür düzenleme platformunu paylaşayım
  Hiyerarşik karışım modelleri kullanarak büyük ölçekli aramaları ve atıf ağlarını düzenliyor
  Kullanım örneği: https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all
DeepMind'ın gerçekten AI kullanarak kanser tedavisinde atılım gösterdiği bir haftada OpenAI olayının ortaya çıkması, karşılaştırınca oldukça kötü bir izlenim bırakıyor
Eski patronumun sözü aklıma geldi: "Yeni bir politikanın çıkmasına sebep olan kişi olmayalım"
Görünüşe göre OpenAI'nin iletişim politikasını değiştirmesi gerekecek
OpenAI çalışanları kendi modellerinin gerçek yeteneklerini muhtemelen oldukça iyi biliyordur, ama öyle olmasa bile internetteki her iddiaya karşı her zaman temkinli olmak gerektiğini düşünüyorum
Bence bugünkü AI abartısı ortamını oluşturan şey de tam olarak bu kültür
- "Birine bir şeyi anlatmanın zor olmasının nedeni, maaşının o şeyi anlamamasına bağlı olmasıdır" şeklindeki meşhur sözü hatırladım
Bu olayın ortaya çıkardığı şey, OpenAI'nin çözülmemiş matematik problemlerine ciddi biçimde yatırım yapmadığı yönündeki üzücü gerçek
- Bunun mantık sıçraması olduğunu düşünüyorum
  OpenAI gibi büyük bir organizasyonda, farklı araştırma ekiplerinin çeşitli yönlerde deneyler yapıyor olması gayet muhtemel
- OpenAI reklam ve yetişkin içerik işine kaydığı anda işlerin iyice raydan çıktığını düşündüm
  Piyasa bunu henüz fiyatlamış değil
- Tek bir çalışanın yanlış bir duyuru yapmış olması üzerinden bütün yapıyı hemen yargılamam
OpenAI çalışanlarından bu şekilde konuşmalarının istenmesi tuhaf değil
Bu ilk kez olmuyor; daha önce de GPT-5'in bir şeyi 'çözdüğü' iddia edilmişti (bkz. https://x.com/SebastienBubeck/status/1970875019803910478)
Giderek GPT-5'in daha küçük çaplı çözülmemiş matematik problemlerini gerçekten çözebildiğine dair örnekler artıyor; bunlar genelde bir doktora öğrencisinin bir-iki günde çözebileceği düzeyde problemler
Etkisinin henüz tam olarak sindirilmediği bir aşamadayız
"İnsanın kendi yaptığı şeye kendisinin fazla güvenmemesi gerekir" tavsiyesini özlüyorum
- Bu sabun işte, bu! https://www.youtube.com/watch?v=RvGE-xhroy0
  [İki kez çiş içmek]
Yann LeCun'un "Hoisted by their own GPTards" ifadesi akılda kalıcıydı
- Yann'ın zeki olduğu ve alanın köklerine kadar hâkim olduğu doğru, ama son dönemde olumsuz bir eğilimi de var ve kamuya açık görüşlerinin çabuk yanlışlandığı örnekler de fazla
  Daha önce genç araştırmacılarla bir konuşmasında iki güçlü iddiada bulunmuştu
  1. LLM'ler matematik problemi çözemez: Sadece kulağa benzer şeyler üretirler, doğrulanabilir problemlerde tökezlerler demişti
  2. LLM'ler plan yapamaz demişti
    Oysa bir yıl içinde AI artık araç kullanma, IMO derecesi alma ve ajan tabanlı planlama gibi şeyleri gerçekten yapabilir hâle geldi
    Bir başka iddiası da, LLM'lerde diyalog uzadıkça hataların birikip sonunda saçma sonuçlara dönüştüğü yönündeydi; ancak son dönemde uzun bağlam ve RL birleşimiyle bunun da fiilen aşıldığı birçok örnek var
    Ne kadar dahi olursa olsun, tek bir kişinin görüşünü biraz süzerek almak gerektiğini düşünüyorum
- Ben mi bağlamı kaçırdım bilmiyorum ama Yann'ın 'retard' türevi bir sözcük kullanması şaşırtıcı geldi
  Normalde böyle bir dili Elon Musk gibi birinden beklermişim gibi geliyor
  Bağlamı neydi merak ettim
Yüzlerce milyar dolarlık döngüsel finansman skandalından sonra, AI sektörü ya da yapay abartı hakkında bir şey okuyunca artık hiçbir şeye şaşırmıyorum

OpenAI araştırmacısı, hiç yaşanmamış bir GPT-5 matematiksel atılımını ilan etti

Olay Özeti

Topluluk Doğrulaması ve Tartışma

Sektör Güven Sorunu ve Eleştiri

Gerçek Sonuçlar ve Matematikte AI'nin Rolü

Sonuç

İlgili okumalar

1 yorum

Hacker News görüşü