GPT-5: Gecikmeli, Aşırı Pazarlanmış ve Yetersiz; Daha da Ciddi Bir Sorun
(garymarcus.substack.com)- GPT-5 ile ilgili beklentilere rağmen gerçek açılıştan sonra topluluk düzeyinde hayal kırıklığı ciddi şekilde arttı
- GPT-5, önceki modellere kıyasla gerçek anlamda büyük bir fark sunmuyor ve bazı benchmarklarda performansın tersine kötüleştiği bile görüldü
- Son araştırmalarda büyük dil modellerinin (LLM) genelleme sınırları ve dağılım kayması sorunlarının hala ciddi olduğu kanıtlandı
- OpenAI'nin teknoloji liderliğini kaybetmesi, kilit personel ayrılışı ve rakiplerin yaklaşıyı nedeniyle şirketin değerini koruma durumu belirsizleşti
- AGI gerçekleştiği iddiasına karşı şüphe artarken sektör genelinde “salt ölçekleme” yaklaşımının sınırları daha görünür hâle geliyor
GPT-5 Açılışı ve Beklenti
- OpenAI’nın uzun süredir haberleştirdiği GPT-5 açılışı nihayet gerçekleşti
- CEO Sam Altman, açılımdan önce ve sonra kendinden emin söylemleri ve pazarlama imajını aktif biçimde öne çıkardı
- Ancak GPT-5’in yayına girmesinin ardından, bazı influencerlar dışında, topluluklarda hayal kırıklığı baskın kaldı
- Kullanıcılar yeni modele karşı ciddi derecede hayal kırıklığı yaşadı ve eski sürüm isteme yönlü kampanyalar bile sonuç verdi
- Altman’ın pazarlama söylemi ve iddialarının aksine, gerçek kullanıcı geri bildirimleri belirgin biçimde olumsuz oldu
Topluluk ve Medya Tepkisi
- OpenAI Reddit, Hacker News ve benzeri birçok toplulukta hata, halüsinasyon (hallucination) gibi GPT-5 sorunları yoğun biçimde gündeme geldi
- Bazı kritik benchmarklarda, GPT-5 Grok 4 gibi rakip modellere karşı geride kaldı
- Otomatik yönlendirme gibi yeni özellikler de karışıklık ve yetersizliklerini gösterdi
- Topluluğun beklentisi hızla arttığı bir ortamda, GPT-5 tam tersine büyük bir hayal kırıklığı yarattı
- Lansman gününde Polymarket anketinde OpenAI'nin yapay zeka liderliğine duyulan güven 1 saat içinde %75’ten %14’e düştü
Yapısal Sınırlar: Satranç, Görsel Anlama ve Akıl Yürütme
- Yazarın ve birçok uzmanın vurguladığı temel akıl yürütme hatası ve satranç kurallarına uyum eksikliği problemi hâlâ ortada
- Görüntü üretimi gibi alanlarda parça-bütün ilişkileri, görsel tutarlılık gibi konularda belirgin sınırlar ortaya çıktı
- Mekanik mühendisliği alanındaki doktora seviyesindeki biriyle sıradan biri arasında bile yanılgı oluşmaması beklenen sorunlarda GPT-5 yine hata yaptı
- Özetleme ve anlama gibi temel görevlerde de çok sayıda hata örneği raporlandı
- GPT-5, kademeli bir iyileşme modelidir; ancak geçen yıla göre belirgin bir sıçrama göstermiyor
OpenAI’nın Güncel Durumu ve Geleceği
- GPT-5, önceki modellerin yanında yalnızca kademeli bir ilerleme düzeyinde kaldı ve kritik eksiklikler tekrarlandı
- Piyasa ve sektörde OpenAI'nın teknoloji liderliğine dair güven azalmaya devam ediyor
- Birçok kilit çalışan firmayı terk ederek rakip şirket kurmuş ya da transfer olmuş; Anthropic, Google, Elon Musk gibi oyuncular hızlıca takipte
- Fiyat düşürme baskısı, kârlılık sorunları ve Microsoft’la ilişkilerin bozulması gibi yapısal riskler büyüyor
- LLM tabanlı AGI’ye dair inançsızlık ve CEO Sam Altman’a güven azalması derinleşiyor
LLM’lerin Temel Sınırları: Genelleme ve Dağılım Kayması
- Arizona State University’den çıkan son bir çalışmada, Chain of Thought akıl yürütmenin bile eğitim dağılımının dışına çıkınca çöktüğü doğrulandı
- Apple ve diğerlerinin daha önce işaret ettiği, dağılım kaymasına (distribution shift) hassas yapı en son modellere de aynı şekilde yansıyor
- Bu durum, LLM’lerin sürekli niteliksel sınırlara çarpmasının temel nedeni olup, yalnızca büyük parametre sayısıyla aşılmasının mümkün olmadığını gösteriyor
- Milyarlarca dolarlık yatırım alan ölçekleme stratejisi, temel meselelerin çözümünde başarısız kaldığını ortaya koyuyor
- Yeni bir paradigma arayışının gerektiği yönündeki farkındalık yayılıyor
Genel AI Sektörü ve “Ölçekleme”nin Sınırları
- AGI, otomatik sürüş, gerçek dışı zaman çizelgeleri gibi konularda abartılı pazarlama yaygın
- Performansı çarpıtan benchmarklar, kara kutu tarzı değerlendirmeler ve düşük şeffaflık önemli sorunlar olarak öne çıkıyor
- Pek çok kişi, AGI teriminin yatırımcılar ile genel kamuoyu üzerinde etki bırakmak için bir araç olduğunu fark etmeye başladı
- Yapay zeka için hem iyimser beklenti hem de eleştirel baskı birlikte artıyor
- Gerçeklik, saf ölçekleme yaklaşımının bir tavana çarptığını gösteriyor
Alternatifler ve Sonuç
- GPT-5 daha ucuzlayabilmiş olsa da satranç, akıl yürütme, görsel ve matematiksel beceri gibi alanlardaki nitel sınırlamalar devam ediyor
- Grok, Claude, Gemini gibi rakip modeller de benzer sorunları tekrar ediyor
- Dağılım kayması (distribution shift) sorunu hâlâ çözülmemiş durumda
- Artık neuro-symbolic AI ve world model tabanlı yaklaşımlar gibi yeni yönelimlerin gerekliliği savunuluyor
- Salt ölçekleme yerine karmaşık algoritmik yeniliklerin, AGI’nin gerçekleşmesi için zorunlu olduğunu teyit ediyor
İlerideki Konular ve Not
- Bu haftaki LLM sınırlarına ek olarak, bu hafta içinde başka kritik bir bilimsel konunun da ortaya çıkacağı öngörülüyor
- Sonraki takip yazısında ayrıca bu konuyla ilgili içerik paylaşılacağı duyuruluyor
Özet
- GPT-5’in açılmasından önce ve sonra sektör ile topluluğun beklentileri, LLM’lerin yapısal kısıtları, OpenAI’nın geleceği ve AGI çerçevesinin gerçekliği geniş çapta tartışıldı
- Bütün metin, LLM’ler, GPT-5’in pratik sınırlamaları, yapay zeka yatırım/beklenti/hayal kırıklığı, yenilik sorunları, araştırma trendleri gibi konularda girişimcilere ve BT profesyonellerine önemli çıkarımlar sunuyor
5 yorum
Aşırı kötümser bir bakış gibi.
Endişeleri anlıyorum, ancak teknoloji gelişiminin her zaman tek yönlü yukarıdan gitmesi gerekmez.
Üstelik yazıyı kaleme alan kişinin, sadece saçma sapan şeyler söyleyen Gary Marcus olması nedeniyle...
Google gibi sessizce show&prove yapsaydı bu noktaya gelmezdi. O zamana kadar 'çok korkunç', 'ölüm yıldızı', 'nükleer bomba yapmışlar gibi' diye o kadar da abartılı konuşup, yüksek ses çıkarmış olmamız da bence biraz kendimizin yüzünden oldu.
Ve ayrıca, sunumda benchmark gösterilirken gerçekten saçma bir hata yapmaları da genel izlenime olumsuz katkıda bulunmuş gibi görünüyor.
Hacker News Görüşleri
Hâlâ GPT-5'in aslında maliyet azaltmaya dönük bir strateji olduğunu düşünüyorum; nedeni, OpenAI'nin GPU gerektiren ürünlerde bir milyar kullanıcı hedefleyen büyüme odaklı bir şirket olması.
Kimse GPT-5 Pro'dan bahsetmiyor ama ben doğrudan test ettim ve Grok 4 Heavy ile Opus 4.1'den daha iyi.
Tamamen yeni bir model ve gerçekten en yüksek performansta çalıştırılırsa kişi başı aylık maliyet binlerce dolara çıkabilir.
Bu nedenle pratikte sınırlı şekilde sunuluyor; OpenAI'nin hedefi Google'la rekabeti büyüme odaklı sürdürmek.
Pro modelinden tek bir kez de olsa söz edilmediği için bu kişinin görüşüne güvenmiyorum.
Bence GPT-5 Pro'nun o3-pro'dan daha iyi olduğu izlenimi vermiyor (belki hiç de değil); çok daha yavaş ve çıktı kalitesi benzer.
Ağımı kontrol ettim, GPT-5 Pro kullanan tek birini bile görmedim.
Bu görüşe katılıyorum ama daha iyi bir modeli halka açma niyeti de var.
Pro modelinin API ile kullanılamadığını sanıyordum, doğru mu?
Katılıyorum.
Bu tür yazılara özellikle sinirliyim.
Kişinin neden GPT-5'in zayıf olduğunu doğrudan analiz edip yazmak yerine sosyal medya tepkilerini toplayıp, her eleştiriyi “şok edici” ya da “abartılı” diye büyütüp ikna etmeye çalışması sinir bozucu.
Aşırı tek taraflı; ne gazetecilik ne de orijinal bir analiz var.
Sanki AI haberleri temel olarak merak eksikliği gösteriyor ve alaya alma / küçümseme tarafına daha çok kayıyor.
Gary Marcus'ın analizleri her zaman yüzeysel kalıyor.
Gary Marcus her zaman yapay zekanın gerçekte çalışmadığını iddia eder; onun haklı çıktığı şeyler çoğu zaman tesadüf oluyor.
Bu, GPT-5'in abartılı şekilde karşılanmasına ve aldığı tepkiye dair bir blog yazısı.
Gerçek görüş bulmak gittikçe zorlaşıyor; bu gerçek bir sorundur.
Benim deneyimime göre bu “yükseltme”, Plus kullanıcıları için ciddi bir downgrade.
GPT-5, O3'e kıyasla cevap kalitesi açısından yetersiz; yeterince derin düşünmüyor ve O3 gibi web araması yapmıyor.
‘thinking’ seçenekli komutu doğrudan seçsem ve net şekilde talimat verseydim bile çözüm olmuyor.
Şu an aynı kaliteyi almak için Gemini'ye geçmek gerekiyor.
Özel GPT'ler de bozuk durumda (ilgili bilgi); benim özelleştirilmiş dilbilgisi kontrol GPT'm modelden bağımsız olarak talimatları yok sayıyor.
Deep research seçeneği de garip; seçsen bile aynı cevap geliyor ve talimat vermene rağmen anlamlı bir fark olmuyor.
Projects da aynı şekilde bozuk gibi.
Kasıtlı olarak seni ücretsiz plan tarafına itmek veya gelecek yıl başından itibaren reklam ekleyip 200$'lık plana yönlendirmek istiyor gibi.
Halüsinasyon (yanlış bilgi) gerçekten yüksek.
AI topluluğunun Marcus gibi bağımsız uzmanlara ihtiyacı var.
Sektöre dair abartılara veya dahili metrik değişikliklerine (ör. “içeride AGI'ye ulaşıldı” gibi) kapılmadan dürüst ve şeffaf kalınmalı.
Kendi tarzına bakmadan da Marcus, scaling law sınırları veya LLM türü AI'de gerçek çıkarım eksikliği (dağılım dışı genelleme) gibi birçok noktayı net biçimde ele almış biri.
Endüstri genelde önce olumsuz bakıp, sonra zaman geçince yeni bir şey (Prompt Chain, RL tabanlı LLM vb.) pazarlarken sanki kendi buluşu gibi sunuyor.
Abartılı dalgaya karşı eleştirel ses şart.
Şiddetle karşıyım.
Bu AI sınırlamalarını veya yanlış algıları çoğunlukla Marcus'a bağlamıyorum.
GPT için şimdi en acil ihtiyaç, “bilmiyorsa bilmiyorum demek.”
Bugün Cyberpunk 2077 modunda redscript ile NPC otomatik üretme yolunu aradım ve bunu eninde sonunda zor da olsa bulabildim.
ChatGPT 5, ‘research’ yaptığını söyleyip API’leri uyduruyor; yanlış olduğunu birkaç kez işaretlesem bile halüsinasyonları tekrar ediyor.
30 dakikamı boşa harcadım; o “bilmiyorum” deseydi bir dakikada öğrenmiş olurdum.
ChatGPT'nin bir şey bildiğini sanmamak gerekir.
Doğru.
Aslında hiçbir şey “bilmiyor.”
“Bilmiyorsa bilmiyorum desin” ihtiyacının en önemli olduğu konusunda katılıyorum.
Bu geliştirmeler gerçekten yapılmakta; OpenAI'nin resmi kaynaklarında da var.
Onun “her şeyi tam oturtma takıntısı” doğru gerçekleri bile bulandırıyor.
Sembolik/transformer hibrit sistemi tartışması ilginç.
İlgili gönderide matematiği Python'a vererek Grok 4'ün matematikte başarılı olduğu bir örnek var.
Kişisel olarak sembolik öncelikli bir sistem görmek istiyorum; yani gerçek “sert” matematik sembolik yöntemle, yalnızca gerektiğinde monad ile çıkarım yapılan bir yaklaşım.
Aloe'nin nöro-simgesel sistemi, OpenAI'nin deep research GAIA benchmark puanını 20 puan farkla geçti.
GPT-5'te, GPT-4'te görülmeyen bir problem gördüm.
Konuşma dizisinde bağlam bazen ansızın kesiliyor veya bir sonraki yanıtı doğru anlayamıyor.
Sanki bir bağlam temizleme süreci devrede, şimdiye kadarki bağlam özetini çıkarıp taşımıyor gibi hissediyorum.
Bu yüzden gerçek kullanılabilir bağlam çok daralmış olabilir; bu durum sıkça oluyor.
“Son konuşmaları gözden geçir” dediğimde biraz düzeliyor.
Benim tarafımda cevaplar çok daha kısa oldu.
İnsanlar mucize bekler oldu ama GPT-5 sadece en güncel kademeli gelişme.
Artık eğitim verisi kalmadı.
AI'nin ilerlemesi artık tamamen mimari değişime bağlı.
Tüm modern modeller yeni bilgilerde yerel maksimumlarda takılıp kalıyor.
Önceki araştırmalara göre, amaçlı yerleştirilmiş gerçek veriyle çoğunlukla sentetik veriyi birleştirerek frontier LLM eğitimi yapmak etkili oluyor.
Bu fikri iki yıl önce de burada söylemiştim.
Bu gerçekten GPT-5'in halihazırda dünya genelindeki tüm video verisini öğrenmiş olduğu anlamına mı geliyor?
Günde yeni eğitim verisi üretilmiyor mu zaten?
OpenAI en iyi modeli yaratsın da, ‘GPT-5’ adıyla topluluk ve OpenAI zaten öyle bir hype yaptı ki, başarısızlığın planlı olduğu açık.
Aslında OpenAI'nin meme ve aşırı pazarlamayı reddedip kademeli gelişmeyi seçmesi gerekirdi; ama bu yatırımcıyı, hikâyeyi ve AI ekosistemini ayakta tutmak için ters olurdu.
Zaten zirveye geldik.
Sam Altman'ın da böyle bir beklenti yaratan ve körükleyen rolü vardı, bu da gerçek.
Gerçek AGI geldiğinde insanların “beklentiler karşılanmadı” argümanını nasıl kuracağını merak ediyorum.