- OpenAI araştırmacısı tarafından GPT-5'in çözdüğünü iddia ettiği Erdős problemleri ile ilgili duyuru, topluluk ve sektör temsilcilerinden eleştiri alması üzerine hızla geri çekildi
- Bu iddia, onlarca yıldır çözümsüz kabul edilen bir matematik probleminin somut kanıtını, yapay zekânın bağımsız olarak bulduğu gibi yorumlanabilecek bir üslupla dile getirdi
- Pratikte GPT-5, var olan araştırmaları yeniden keşfetme düzeyinde kaldı ve gerçek anlamda çözümsüz bir problem için yeni bir çözüm sunmuyordu
- Olay, OpenAI'nin güvenilirliğinde düşüş ve doğrulanmamış yapay zeka başarılarının abartılı biçimde duyurulmasına dair endüstri kaygılarını artırdı
- Gerçekte GPT-5'in asıl gücü, araştırma makalelerinin aranması ve literatürün derlenmesinde yardımcı bir araç olarak öne çıktı
Olay Özeti
- Son dönemde bir OpenAI araştırmacısı, X (eski adıyla Twitter)'de GPT-5'in "10 adet çözümsüz Erdos problemini çözdüğü" ve buna ek olarak 11 problemde ek bir ilerleme sağladığı yönünde çığır açıcı bir başarıyı duyurdu
- Bu iddia, GPT-5'in zor bir sayı teorisi problemi için matematiksel bir kanıtı bağımsız olarak türettiği biçiminde anlaşıldı
- Birçok OpenAI araştırmacısı benzer içerikte gönderiler yayınlayarak bu yapay zekânın yenilikçi bir bilimsel keşif gerçekleştirilebileceği izlenimini verdi
Topluluk Doğrulaması ve Tartışma
- Erdosproblems.com sitesini yöneten matematikçi Thomas Bloom, bu iddiayı hemen çürüttü ve site üzerindeki "open" olarak işaretlenmiş sorunların gerçek anlamda çözümsüz olmadığını açıkladı
- Bu maddeler, Bloom'un kendisinin cevabı bilmediği veya mevcut araştırmaları o anda doğrulayamamış olduğu örneklerden oluşuyordu
- GPT-5 yalnızca daha önce bulunan araştırma sonuçlarını buldu; yeni bir matematiksel çözüm keşfetmedi
- Bu durum kamuoyuna netleşince OpenAI araştırmacıları gönderilerini sildi veya içeriği güncelledi
- Topluluk ve sektöre önder kişiler, örneğin DeepMind CEO'su Demis Hassabis, bunu "utanılacak bir olay" olarak nitelendirdi; Meta AI'dan Yann LeCun da OpenAI'nin kendi tanıtımına kapıldığına işaret etti
- Araştırma ekibi hatasını kabul edip GPT-5'in gerçek rolü konusunda yeniden açıklama yaptı
Sektör Güven Sorunu ve Eleştiri
- Bu olayla, OpenAI'nin güvenilirliğinde ve doğrulama süreçlerinde sorunlar sergilediği yönündeki değerlendirme güçlendi
- Özellikle yapay zeka ekosisteminde abartılan beklentiler ve ilişkili hisse senedi yatırımlarındaki yoğun ilgiyle birleşince, doğrulanmamış performans duyurularına dair endişe arttı
- Neden sektördeki öncü araştırmacılar doğrulama yapmadan dramatik iddiaları kamuya açıkladı sorusu yanında, OpenAI içindeki organizasyonel bütünlük de tartışma konusu oldu
Gerçek Sonuçlar ve Matematikte AI'nin Rolü
- Pratikte GPT-5, özellikle karmaşık ve terim bakımından zengin matematik sorunlarında ilgili makaleleri ve araştırma belgelerini bulma konusunda yardımcı bir rol üstlenmede yararlılığını gösterdi
- Matematikçi Terence Tao, yapay zekânın "en yeni çözümsüz sorunun çözümü" olmaktan çok, kapsamlı literatür taraması ve tekrarlayan arama işini büyük ölçüde hızlandıracağı yönündeki beklentinin daha gerçekçi olduğunu belirtti
- Bazı bağımsız ilerleme örnekleri olsa da bugün için güçlü tarafı hâlen makale bulma ve düzenleme süreçlerini otomatikleştirmede destek sunması
- Gelecekte matematikte üretken yapay zekanın hız ve otomasyon katkı potansiyeli bulunuyor
- Ancak uzman doğrulaması, sınıflandırma ve sonuç entegrasyonu hala zorunludur
Sonuç
- Bu olay, üretken yapay zekanın gerçek sınırlılıkları ve endüstriyel potansiyelinin yanı sıra AI araştırma sonuçlarının abartılı biçimde sunulmasının yarattığı risklerin somutlaştığı bir örnek oldu
- Sonuçta GPT-5, çözümsüz matematik problemlerinde devrimci bir atılım olmaktan çok, araştırma materyallerini düzenlemeye yardımcı bir araç olarak potansiyeli ön plana çıkan bir model olarak kaldı
1 yorum
Hacker News görüşü
OpenAI ekibine karşı adil olmak için bağlama bakınca durumun o kadar da kötü niyetli olmadığını düşünüyorum
Silinen tweette "GPT-5, 10 tane (önceden çözülmemiş) Erdös problemini çözdü, ayrıca 11 tanesinde daha ilerleme sağladı, onlarca yıldır çözülemeyen problemler" deniyordu
Bu tweet tek başına atılsaydı yanıltıcı olduğunu düşünürdüm, ama aslında bir alıntı tweetti
İlk alıntılanan özgün gönderi (https://x.com/MarkSellke/status/1979226538059931886) "bunu daha da ileri götürüyor" diyordu
Bu tweetin alıntıladığı ikinci özgün gönderide ise (https://x.com/SebastienBubeck/status/1977181716457701775), GPT-5'in literatür taramada çok iyi olduğu ve "aslında 20 yıl önce çözülmüş bir problemi bulup, hâlâ açık problem olarak sınıflandırılan Erdos problemi #339'u 'çözdüğü'" söyleniyordu
Bu zinciri sırayla okuyunca
SebastienBubeck: "GPT-5 literatür taramada çok iyi, zaten çözülmüş bir çözümü bularak hâlâ açık sanılan bir problemi çözmüş oldu"
MarkSellke: "Şimdi 10 tane daha yaptı"
kevinweil: "Başardığımız harika sonuca bakın!"
Sonuçta bu, alıntı tweet biçiminin yarattığı bir sorun; kevinweil birkaç katman alıntılayınca en baştaki problemi kaçırmış gibi görünüyor (aslında yaptığı şey zaten var olan çözümü bulmaktı) ve okur açısından yanlış anlamaya çok açık bir yapı çıkıyor ortaya
Bu tür bir hata gayet anlaşılır görünüyor ve tartışmanın biraz abartıldığını düşünüyorum
Weil'in paylaştığı alıntı tweetin bağlamını yeterince hesaba katmadığı konusunda, aslında Weil'in kendisi de Sellke'nin gönderisini yanlış anladığını doğrudan söylemiş durumda (https://x.com/kevinweil/status/1979270343941591525 adresinde görülebilir)
Sellke "açık problem olarak sınıflandırılan" demişti, Weil ise "önceden çözülmemiş problemler" ifadesini kullandı; fark burada
İlk kişi "20 yıl önce zaten çözülmüş olduğunu fark edip problemi 'çözdü'" dedi, ikinci kişi ise "önceden çözülmemiş 10 Erdös problemini çözdü" dedi
"Önceden çözülmemiş" ifadesinin gerçek bağlamla uyuşmadığını düşünüyorum
Acaba ben mi yanlış anlıyorum diye merak ettim
Bu, birkaç ay önce DeepMind'ın “matris çarpımını SOTA'dan daha iyi yapıyor” diye duyurduğu makaleye benziyor
O zaman Gemini'nin yeni bir optimizasyon çözümü bulduğu söylenmişti, ama duyurudan hemen sonra matematikçiler bunun zaten 30-40 yıl önceki literatürde bulunduğunu belirtmişti; ayrıca bu bilginin Gemini'nin eğitim verisinde yer almış olması da muhtemeldi
"GPT-5 literatür aramada çok iyi, mevcut bir çözümü olan problemi 'çözdü'" iddiası hakkında
Bence bu bir hayatta kalma yanlılığı örneği
Gerçekte GPT-5'in nispeten kolay aramalarda bile başarısız olduğu çok oluyor
Arama sonucunun doğru olup olmadığını ya zaten yeterince biliyor olmanız ya da bizzat doğrulama yapmanız gerekiyor
Bana biraz 1000 kez zar atıp her seferinde çift altı geldiğini öven paylaşımları hatırlatıyor
Bunun benim dünyanın en iyi zar atıcısı olduğum anlamına gelmemesine benzer bir durum
erdosproblems.com'u işleten matematikçi Thomas Bloom'un hemen yaptığı itiraza değiniliyor
Vurguladığı nokta, bunun "çözülmemiş problem (unsolved)" değil, "ben cevabını bilmiyorum (open)" anlamına geldiği
Matematikçilerin 'open' sözcüğünü böyle tanımlaması bana tuhaf geliyor
Benim bilmediğim bir ders kitabı sorusuna da 'açık soru' demiyoruz sonuçta
"GPT-5 literatür inceleme yardımcı aracı olarak faydalı" iddiasına itiraz
Bence pratikte yaptığı şey çoğunlukla çok inandırıcı görünen ama sahte sonuçlar üretmek
Bundan memnun olan insanların hayatı benimkinden çok daha kolay olmalı
Mühendislik matematiği makaleleri gibi kaynakları bulmak için saatlerce kütüphanede didinip, son çare olarak sohbet botuna umut bağladığım oldu
Ama sonunda çıkan sonuçlar tuhaf oluyor, ben de uzun süre tekrar doğrulama yapmak zorunda kalıyorum ve geriye sadece "bunun gerçekten mümkün olması zaten beklenmezdi" hayal kırıklığı kalıyor
Bu deneyimi sadece benim yaşamadığımı da fark ettim
Sık sık derin literatür taraması yaptığımda, GPT yaklaşık %50 olasılıkla temelsiz kaynaklar uyduruyor (halüsinasyon)
Üst düzey özet incelemelerde ise bu oran yaklaşık %5 civarında
Gerçek kaynak çıkan %50'nin yarısı zaten aşina olduğum makaleler, diğer yarısı ise bilmediğim makaleler
Gerçekten iyi tarafı, bazen daha önce bulunması zor makaleleri keşfetmeyi sağlaması (Google Scholar vb. ile bulunamayanlar dahil)
Özellikle başka alanlardan ilgili çalışmalar veya az atıf alan kısa özet makaleleri gibi çok çeşitli kaynaklara ulaştırabiliyor
Sonuçların %75'i işe yaramaz ya da halüsinasyon olsa bile, kalan %25 o kadar büyük değer sağlıyor ki pratikte çok faydalı oluyor
"Hiç faydalı değil" diye kestirip atmak da abartı gibi
GPT, 500 bin kelimeyi birkaç dakika içinde tarayıp özet, ayrıntılı yanıt ve her iddia için dayanak da verebilir
Elbette özete körü körüne güvenmemek, önemli bilgileri mutlaka kaynağa tıklayıp doğrulamak gerekir
Buna rağmen hâlâ çok güçlü bir arama aracı ve üretkenlik artırıcısı
Adını hatırlamıyorum ama bununla ilgili bir ilke var
İnsanlar bildikleri bir konuda gazete haberi görünce tüm açıkları fark edip "bu nasıl haber olmuş" diye düşünüyor
Ama bilmedikleri konulardaki haberleri eleştirmeden kabul ediyorlar
ChatGPT konusunda da benzer bir aşırı güven oluşuyor gibi geliyor bana
Aslında GPT-5 gibi sohbet botlarını arama/literatür inceleme için zorlamaya çalışmak yerine, gerçekten güçlü bir anlamsal (semantic) arama motoru kullanmak daha iyi olabilirdi diye düşünüyorum
Sohbet botuna özet ya da yanıt ürettirdiğiniz anda halüsinasyon riski hep işin içinde oluyor
Buna karşılık LLM embedding tabanlı belge aramasında sonucun kendisinin halüsinasyon olma riski yok; ayrıca Google/Bing gibi araçların bulamadığı makaleleri keşfetmek için daha iyi bir yöntem olabilir
Belki böyle servisler zaten vardır da ben bilmiyorumdur; bunu da hesaba katmak lazım
Literatür inceleme araçlarıyla ilgileniyorsanız, yüksek lisans arkadaşlarım için yaptığım herkese açık literatür düzenleme platformunu paylaşayım
Hiyerarşik karışım modelleri kullanarak büyük ölçekli aramaları ve atıf ağlarını düzenliyor
Kullanım örneği: https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all
DeepMind'ın gerçekten AI kullanarak kanser tedavisinde atılım gösterdiği bir haftada OpenAI olayının ortaya çıkması, karşılaştırınca oldukça kötü bir izlenim bırakıyor
Eski patronumun sözü aklıma geldi: "Yeni bir politikanın çıkmasına sebep olan kişi olmayalım"
Görünüşe göre OpenAI'nin iletişim politikasını değiştirmesi gerekecek
OpenAI çalışanları kendi modellerinin gerçek yeteneklerini muhtemelen oldukça iyi biliyordur, ama öyle olmasa bile internetteki her iddiaya karşı her zaman temkinli olmak gerektiğini düşünüyorum
Bence bugünkü AI abartısı ortamını oluşturan şey de tam olarak bu kültür
Bu olayın ortaya çıkardığı şey, OpenAI'nin çözülmemiş matematik problemlerine ciddi biçimde yatırım yapmadığı yönündeki üzücü gerçek
Bunun mantık sıçraması olduğunu düşünüyorum
OpenAI gibi büyük bir organizasyonda, farklı araştırma ekiplerinin çeşitli yönlerde deneyler yapıyor olması gayet muhtemel
OpenAI reklam ve yetişkin içerik işine kaydığı anda işlerin iyice raydan çıktığını düşündüm
Piyasa bunu henüz fiyatlamış değil
Tek bir çalışanın yanlış bir duyuru yapmış olması üzerinden bütün yapıyı hemen yargılamam
OpenAI çalışanlarından bu şekilde konuşmalarının istenmesi tuhaf değil
Bu ilk kez olmuyor; daha önce de GPT-5'in bir şeyi 'çözdüğü' iddia edilmişti (bkz. https://x.com/SebastienBubeck/status/1970875019803910478)
Giderek GPT-5'in daha küçük çaplı çözülmemiş matematik problemlerini gerçekten çözebildiğine dair örnekler artıyor; bunlar genelde bir doktora öğrencisinin bir-iki günde çözebileceği düzeyde problemler
Etkisinin henüz tam olarak sindirilmediği bir aşamadayız
"İnsanın kendi yaptığı şeye kendisinin fazla güvenmemesi gerekir" tavsiyesini özlüyorum
[İki kez çiş içmek]
Yann LeCun'un "Hoisted by their own GPTards" ifadesi akılda kalıcıydı
Yann'ın zeki olduğu ve alanın köklerine kadar hâkim olduğu doğru, ama son dönemde olumsuz bir eğilimi de var ve kamuya açık görüşlerinin çabuk yanlışlandığı örnekler de fazla
Daha önce genç araştırmacılarla bir konuşmasında iki güçlü iddiada bulunmuştu
Oysa bir yıl içinde AI artık araç kullanma, IMO derecesi alma ve ajan tabanlı planlama gibi şeyleri gerçekten yapabilir hâle geldi
Bir başka iddiası da, LLM'lerde diyalog uzadıkça hataların birikip sonunda saçma sonuçlara dönüştüğü yönündeydi; ancak son dönemde uzun bağlam ve RL birleşimiyle bunun da fiilen aşıldığı birçok örnek var
Ne kadar dahi olursa olsun, tek bir kişinin görüşünü biraz süzerek almak gerektiğini düşünüyorum
Ben mi bağlamı kaçırdım bilmiyorum ama Yann'ın 'retard' türevi bir sözcük kullanması şaşırtıcı geldi
Normalde böyle bir dili Elon Musk gibi birinden beklermişim gibi geliyor
Bağlamı neydi merak ettim
Yüzlerce milyar dolarlık döngüsel finansman skandalından sonra, AI sektörü ya da yapay abartı hakkında bir şey okuyunca artık hiçbir şeye şaşırmıyorum