6 puan yazan GN⁺ 2025-08-11 | 5 yorum | WhatsApp'ta paylaş
  • GPT-5 ile ilgili beklentilere rağmen gerçek açılıştan sonra topluluk düzeyinde hayal kırıklığı ciddi şekilde arttı
  • GPT-5, önceki modellere kıyasla gerçek anlamda büyük bir fark sunmuyor ve bazı benchmarklarda performansın tersine kötüleştiği bile görüldü
  • Son araştırmalarda büyük dil modellerinin (LLM) genelleme sınırları ve dağılım kayması sorunlarının hala ciddi olduğu kanıtlandı
  • OpenAI'nin teknoloji liderliğini kaybetmesi, kilit personel ayrılışı ve rakiplerin yaklaşıyı nedeniyle şirketin değerini koruma durumu belirsizleşti
  • AGI gerçekleştiği iddiasına karşı şüphe artarken sektör genelinde “salt ölçekleme” yaklaşımının sınırları daha görünür hâle geliyor

GPT-5 Açılışı ve Beklenti

  • OpenAI’nın uzun süredir haberleştirdiği GPT-5 açılışı nihayet gerçekleşti
  • CEO Sam Altman, açılımdan önce ve sonra kendinden emin söylemleri ve pazarlama imajını aktif biçimde öne çıkardı
  • Ancak GPT-5’in yayına girmesinin ardından, bazı influencerlar dışında, topluluklarda hayal kırıklığı baskın kaldı
  • Kullanıcılar yeni modele karşı ciddi derecede hayal kırıklığı yaşadı ve eski sürüm isteme yönlü kampanyalar bile sonuç verdi
  • Altman’ın pazarlama söylemi ve iddialarının aksine, gerçek kullanıcı geri bildirimleri belirgin biçimde olumsuz oldu

Topluluk ve Medya Tepkisi

  • OpenAI Reddit, Hacker News ve benzeri birçok toplulukta hata, halüsinasyon (hallucination) gibi GPT-5 sorunları yoğun biçimde gündeme geldi
  • Bazı kritik benchmarklarda, GPT-5 Grok 4 gibi rakip modellere karşı geride kaldı
  • Otomatik yönlendirme gibi yeni özellikler de karışıklık ve yetersizliklerini gösterdi
  • Topluluğun beklentisi hızla arttığı bir ortamda, GPT-5 tam tersine büyük bir hayal kırıklığı yarattı
  • Lansman gününde Polymarket anketinde OpenAI'nin yapay zeka liderliğine duyulan güven 1 saat içinde %75’ten %14’e düştü
Reklam

Yapısal Sınırlar: Satranç, Görsel Anlama ve Akıl Yürütme

  • Yazarın ve birçok uzmanın vurguladığı temel akıl yürütme hatası ve satranç kurallarına uyum eksikliği problemi hâlâ ortada
  • Görüntü üretimi gibi alanlarda parça-bütün ilişkileri, görsel tutarlılık gibi konularda belirgin sınırlar ortaya çıktı
  • Mekanik mühendisliği alanındaki doktora seviyesindeki biriyle sıradan biri arasında bile yanılgı oluşmaması beklenen sorunlarda GPT-5 yine hata yaptı
  • Özetleme ve anlama gibi temel görevlerde de çok sayıda hata örneği raporlandı
  • GPT-5, kademeli bir iyileşme modelidir; ancak geçen yıla göre belirgin bir sıçrama göstermiyor

OpenAI’nın Güncel Durumu ve Geleceği

  • GPT-5, önceki modellerin yanında yalnızca kademeli bir ilerleme düzeyinde kaldı ve kritik eksiklikler tekrarlandı
  • Piyasa ve sektörde OpenAI'nın teknoloji liderliğine dair güven azalmaya devam ediyor
  • Birçok kilit çalışan firmayı terk ederek rakip şirket kurmuş ya da transfer olmuş; Anthropic, Google, Elon Musk gibi oyuncular hızlıca takipte
  • Fiyat düşürme baskısı, kârlılık sorunları ve Microsoft’la ilişkilerin bozulması gibi yapısal riskler büyüyor
  • LLM tabanlı AGI’ye dair inançsızlık ve CEO Sam Altman’a güven azalması derinleşiyor

LLM’lerin Temel Sınırları: Genelleme ve Dağılım Kayması

  • Arizona State University’den çıkan son bir çalışmada, Chain of Thought akıl yürütmenin bile eğitim dağılımının dışına çıkınca çöktüğü doğrulandı
  • Apple ve diğerlerinin daha önce işaret ettiği, dağılım kaymasına (distribution shift) hassas yapı en son modellere de aynı şekilde yansıyor
  • Bu durum, LLM’lerin sürekli niteliksel sınırlara çarpmasının temel nedeni olup, yalnızca büyük parametre sayısıyla aşılmasının mümkün olmadığını gösteriyor
  • Milyarlarca dolarlık yatırım alan ölçekleme stratejisi, temel meselelerin çözümünde başarısız kaldığını ortaya koyuyor
  • Yeni bir paradigma arayışının gerektiği yönündeki farkındalık yayılıyor

Genel AI Sektörü ve “Ölçekleme”nin Sınırları

  • AGI, otomatik sürüş, gerçek dışı zaman çizelgeleri gibi konularda abartılı pazarlama yaygın
  • Performansı çarpıtan benchmarklar, kara kutu tarzı değerlendirmeler ve düşük şeffaflık önemli sorunlar olarak öne çıkıyor
  • Pek çok kişi, AGI teriminin yatırımcılar ile genel kamuoyu üzerinde etki bırakmak için bir araç olduğunu fark etmeye başladı
  • Yapay zeka için hem iyimser beklenti hem de eleştirel baskı birlikte artıyor
  • Gerçeklik, saf ölçekleme yaklaşımının bir tavana çarptığını gösteriyor
Reklam

Alternatifler ve Sonuç

  • GPT-5 daha ucuzlayabilmiş olsa da satranç, akıl yürütme, görsel ve matematiksel beceri gibi alanlardaki nitel sınırlamalar devam ediyor
  • Grok, Claude, Gemini gibi rakip modeller de benzer sorunları tekrar ediyor
  • Dağılım kayması (distribution shift) sorunu hâlâ çözülmemiş durumda
  • Artık neuro-symbolic AI ve world model tabanlı yaklaşımlar gibi yeni yönelimlerin gerekliliği savunuluyor
  • Salt ölçekleme yerine karmaşık algoritmik yeniliklerin, AGI’nin gerçekleşmesi için zorunlu olduğunu teyit ediyor

İlerideki Konular ve Not

  • Bu haftaki LLM sınırlarına ek olarak, bu hafta içinde başka kritik bir bilimsel konunun da ortaya çıkacağı öngörülüyor
  • Sonraki takip yazısında ayrıca bu konuyla ilgili içerik paylaşılacağı duyuruluyor

Özet

  • GPT-5’in açılmasından önce ve sonra sektör ile topluluğun beklentileri, LLM’lerin yapısal kısıtları, OpenAI’nın geleceği ve AGI çerçevesinin gerçekliği geniş çapta tartışıldı
  • Bütün metin, LLM’ler, GPT-5’in pratik sınırlamaları, yapay zeka yatırım/beklenti/hayal kırıklığı, yenilik sorunları, araştırma trendleri gibi konularda girişimcilere ve BT profesyonellerine önemli çıkarımlar sunuyor

5 yorum

 
gnsdl116 2025-08-12

Aşırı kötümser bir bakış gibi.
Endişeleri anlıyorum, ancak teknoloji gelişiminin her zaman tek yönlü yukarıdan gitmesi gerekmez.

 
mammal 2025-08-11

Üstelik yazıyı kaleme alan kişinin, sadece saçma sapan şeyler söyleyen Gary Marcus olması nedeniyle...

 
dongho42 2025-08-11

Google gibi sessizce show&prove yapsaydı bu noktaya gelmezdi. O zamana kadar 'çok korkunç', 'ölüm yıldızı', 'nükleer bomba yapmışlar gibi' diye o kadar da abartılı konuşup, yüksek ses çıkarmış olmamız da bence biraz kendimizin yüzünden oldu.

 
dongho42 2025-08-11

Ve ayrıca, sunumda benchmark gösterilirken gerçekten saçma bir hata yapmaları da genel izlenime olumsuz katkıda bulunmuş gibi görünüyor.

 
GN⁺ 2025-08-11
Hacker News Görüşleri
  • Hâlâ GPT-5'in aslında maliyet azaltmaya dönük bir strateji olduğunu düşünüyorum; nedeni, OpenAI'nin GPU gerektiren ürünlerde bir milyar kullanıcı hedefleyen büyüme odaklı bir şirket olması.

    • Kimse GPT-5 Pro'dan bahsetmiyor ama ben doğrudan test ettim ve Grok 4 Heavy ile Opus 4.1'den daha iyi.

    • Tamamen yeni bir model ve gerçekten en yüksek performansta çalıştırılırsa kişi başı aylık maliyet binlerce dolara çıkabilir.

    • Bu nedenle pratikte sınırlı şekilde sunuluyor; OpenAI'nin hedefi Google'la rekabeti büyüme odaklı sürdürmek.

    • Pro modelinden tek bir kez de olsa söz edilmediği için bu kişinin görüşüne güvenmiyorum.

    • Bence GPT-5 Pro'nun o3-pro'dan daha iyi olduğu izlenimi vermiyor (belki hiç de değil); çok daha yavaş ve çıktı kalitesi benzer.

      • Hâlâ aceleci ve özü kaçırıyor.
      • Fakat problem çözmede yeni yöntem önerme konusunda biraz daha iyi görünüyor.
      • İlk izlenimim, 5-pro'nun o3-pro'dan bilgide %0-2, yaratıcılıkta ve özgünlükte %5-10 daha iyi olduğu yönünde.
      • Modelin tonu veya kişiliği tamamen aynı.
      • Belirli görevlerde (formel mantık, veri analizi, kısa analitik görevler) gerçekten aşırı iyi ve Grok ya da Gemini'nin hiçbir sürümünden daha iyi.
      • Ama akıcı metin yazımı ve genel yazım için Kimi K2 ile Deepseek R1'in altında.
      • En çarpıcısı, en iyi İngilizce metni yazan modellerin Çin merkezli olması; yalnızca GPT'nin “AI stilini” taklit etmemesi değil, Kimi seviyesinin yayınlanmış şairlerle aynı düzeyde olması.
    • Ağımı kontrol ettim, GPT-5 Pro kullanan tek birini bile görmedim.

      • Özellikle o3 ile karşılaştırıldığında geri bildirimini merak ediyorum.
    • Bu görüşe katılıyorum ama daha iyi bir modeli halka açma niyeti de var.

      • o3 çok iyiydi ama birçok kişi hâlâ bunu kullanmıyordu.
      • ChatGPT'yi her gün kullananlara o3'ü kullanıp kullanmadıklarını sorduğumda şaşkın bakanlar çıkıyor.
      • Bu yüzden çıkarım modelini kitleselleştirme amacı da var; bu da OpenAI'nin maliyetini artıran bir unsur.
      • Ama katmanlı ücretlendirme nedeniyle güçlü kullanıcı açısından (çoğu HN üyesi) tasarruf tarafı da var.
      • Yine de güç kullanıcıları reasoning modelini zorunlu kullanma yöntemini çabuk öğrenir.
    • Pro modelinin API ile kullanılamadığını sanıyordum, doğru mu?

      • Codex CLI ile abonelik bağlayarak kullanılabilir mi?
    • Katılıyorum.

      • Bu kararın bir diğer gerekçesi de çoğu kullanıcı için mevcut modellerin yeterli olması.
      • HN kullanıcılarının aksine sıradan kullanıcılar en yeni teknolojilere fazla ilgi duymuyor.
  • Bu tür yazılara özellikle sinirliyim.

    • Kişinin neden GPT-5'in zayıf olduğunu doğrudan analiz edip yazmak yerine sosyal medya tepkilerini toplayıp, her eleştiriyi “şok edici” ya da “abartılı” diye büyütüp ikna etmeye çalışması sinir bozucu.

    • Aşırı tek taraflı; ne gazetecilik ne de orijinal bir analiz var.

    • Sanki AI haberleri temel olarak merak eksikliği gösteriyor ve alaya alma / küçümseme tarafına daha çok kayıyor.

      • Ben AI'dan yanayım; farklı düşünenlerin ciddi yazılarını her zaman okurum.
      • Ama bu tür bir yazı kategorisi farklı; karşı tarafı eleştirmek dışında değeri yok.
      • HN'nin moderasyonunun kötü olmadığını düşünüyorum, ancak bu tür meraksız içeriklerin ana sayfadan kalkmasını isterim.
    • Gary Marcus'ın analizleri her zaman yüzeysel kalıyor.

      • Görüşleri Jim Cramer'ın hisse senedi yorumlarına oldukça benziyor.
      • Ciddi anlamda Reverse Gary Marcus stratejisine bile yatırım yapılabilir.
    • Gary Marcus her zaman yapay zekanın gerçekte çalışmadığını iddia eder; onun haklı çıktığı şeyler çoğu zaman tesadüf oluyor.

    • Bu, GPT-5'in abartılı şekilde karşılanmasına ve aldığı tepkiye dair bir blog yazısı.

      • Bu tamamen meşru bir konu.
      • Bu bir Gary Marcus blogu olduğu için doğal olarak onun bakış açısına göre eğilimli; BBC yazısı gibi değil.
    • Gerçek görüş bulmak gittikçe zorlaşıyor; bu gerçek bir sorundur.

      • Çevrimiçi ortamda çoğunluk başkasının görüşünü yeniden yorumlamaktan ibaret, gereksiz yere çok gürültülü ve yüzeysel içerik var.
  • Benim deneyimime göre bu “yükseltme”, Plus kullanıcıları için ciddi bir downgrade.

    • GPT-5, O3'e kıyasla cevap kalitesi açısından yetersiz; yeterince derin düşünmüyor ve O3 gibi web araması yapmıyor.

    • ‘thinking’ seçenekli komutu doğrudan seçsem ve net şekilde talimat verseydim bile çözüm olmuyor.

    • Şu an aynı kaliteyi almak için Gemini'ye geçmek gerekiyor.

    • Özel GPT'ler de bozuk durumda (ilgili bilgi); benim özelleştirilmiş dilbilgisi kontrol GPT'm modelden bağımsız olarak talimatları yok sayıyor.

    • Deep research seçeneği de garip; seçsen bile aynı cevap geliyor ve talimat vermene rağmen anlamlı bir fark olmuyor.

    • Projects da aynı şekilde bozuk gibi.

      • Talimatları doğru takip etmiyor; bazen İspanyolca cevaplıyor ya da sorumu görmezden geliyor.
      • Bazen adeta kendi kendine benimle konuşur gibi; hangi tuşa basarsam basayım aynı istenmeyen cevabı, hatta İspanyolca olarak veriyor.
    • Kasıtlı olarak seni ücretsiz plan tarafına itmek veya gelecek yıl başından itibaren reklam ekleyip 200$'lık plana yönlendirmek istiyor gibi.

      • Bundan sonra reklamsız 20$ planın olmayacağını düşünüyorum.
    • Halüsinasyon (yanlış bilgi) gerçekten yüksek.

      • Gerçekten çok hayal kırıklığı yarattı.
  • AI topluluğunun Marcus gibi bağımsız uzmanlara ihtiyacı var.

    • Sektöre dair abartılara veya dahili metrik değişikliklerine (ör. “içeride AGI'ye ulaşıldı” gibi) kapılmadan dürüst ve şeffaf kalınmalı.

    • Kendi tarzına bakmadan da Marcus, scaling law sınırları veya LLM türü AI'de gerçek çıkarım eksikliği (dağılım dışı genelleme) gibi birçok noktayı net biçimde ele almış biri.

    • Endüstri genelde önce olumsuz bakıp, sonra zaman geçince yeni bir şey (Prompt Chain, RL tabanlı LLM vb.) pazarlarken sanki kendi buluşu gibi sunuyor.

    • Abartılı dalgaya karşı eleştirel ses şart.

      • LLM konusundaki en yüksek ses ekonomik kazanç sağlayan tarafta.
      • Ben AI karşıtı değilim; fakat her ekonomik olgunun bu teknoloji yüzünden işsizliğe dönüşeceği gibi bir hava yaratılması gerçekten gülünç. Ekonomik sıkıntıların gerçek nedeni zaten bambaşka, çoğu zaman ülkelerin liderliğinde.
      • İnovasyon hızı yavaşlarsa en azından benim kullandığım ürünler, zoraki AI entegrasyonu yerine gerçek fonksiyonlar ve hata düzeltmeye döner.
    • Şiddetle karşıyım.

      • Bu yazı, Reddit şikayet derlemesine yakın ve doğrudan test sonucu yok; lansman sürecindeki (500 milyon eşzamanlı açılış) sorunlarla sınırlı kalıyor.
      • Bu tür eleştiriler GPT-5'teki asıl kritik noktayı kaçırıyor; bu aslında “AI tam ürün” lansmanı, artık model optimizasyonundan gerçek hizmet tasarımına geçildi.
      • Önemli nokta, daha hızlı olması, daha bütünleşik olması ve kademeli yenilikleri (çok modlu etkileşim, görsel üretim vb.) mümkün kılması.
      • Özellikle uzun bağlam ve uzun vadeli hedefi koruma becerisinde büyük ilerleme var.
      • Willison da kod işinde ana araç olarak kullandığını söylemişti; ben de daha uzun/karmaşık kod görevlerinde Claude ve önceki en iyi modellerden (o3-pro, Gemini) belirgin şekilde daha iyi olduğunu hissettim.
      • o3-pro'ya göre kod yazma hızı da çok daha hızlı.
      • “Reddit kullanıcılarının 4o'ya bağlı olduğu için bu lansmanı sevmemesi → oAI batıyor” gibi bir analiz zayıf ve anlamsız.
    • Bu AI sınırlamalarını veya yanlış algıları çoğunlukla Marcus'a bağlamıyorum.

      • Marcus yüzünden olduğunu düşünmüyorum.
  • GPT için şimdi en acil ihtiyaç, “bilmiyorsa bilmiyorum demek.”

    • Bugün Cyberpunk 2077 modunda redscript ile NPC otomatik üretme yolunu aradım ve bunu eninde sonunda zor da olsa bulabildim.

    • ChatGPT 5, ‘research’ yaptığını söyleyip API’leri uyduruyor; yanlış olduğunu birkaç kez işaretlesem bile halüsinasyonları tekrar ediyor.

    • 30 dakikamı boşa harcadım; o “bilmiyorum” deseydi bir dakikada öğrenmiş olurdum.

    • ChatGPT'nin bir şey bildiğini sanmamak gerekir.

      • Eğitim verisine dayanarak istatistiksel olarak en olası cevabı üretir.
      • Dahili bir bilgi sistemine bakmaz, yalnızca dil desenlerini çıktı olarak verir.
      • Bir fikri (ör. propaganda) vurgulayacak şekilde eğitmek mümkün olsa da bilgiyi doğrudan referanslayamaz.
    • Doğru.

      • Sanki tüm inancıyla konuşan bir meslektaş gibi duruyor, şüphe etmeden inanıyorum.
      • Ama gerçekte çoğu şey yalan; gerçekten sinir bozucu.
    • Aslında hiçbir şey “bilmiyor.”

      • Tüm sonuçlar, prompt'a dayalı halüsinasyonlara çok yakın.
    • “Bilmiyorsa bilmiyorum desin” ihtiyacının en önemli olduğu konusunda katılıyorum.

      • Frontier AI lab'da da dahili inceleme ve deneme yapılmış olmalı.
      • Bu durumun nadir olmaması, model sınırlamalarının net olduğunun bir kanıtı da olabilir.
    • Bu geliştirmeler gerçekten yapılmakta; OpenAI'nin resmi kaynaklarında da var.

      • İlgili bağlantı
      • GPT‑5 (‘thinking’ seçeneği), yapılamaz veya bilgi eksikliği olan ve araçsız görevlerde, sınırlarını ve davranışını o3’e göre daha dürüst biçimde göstermeye çalışıyor.
      • Örneğin CharXiv çok modlu benchmark'unda, görsel içermeyen prompt denemesinde o3, var olmayan bir görsele %86.7 oranında özgüvenli cevap verirken GPT‑5 bunu %9'a düşürdü.
      • İmkânsız kodlama, çok modlu varlık yokluğu gibi durumlarda da GPT‑5 reasoning o3'e göre çok daha az yanlış yanıt veriyor.
      • Gerçek ChatGPT trafiğine dayalı uzun sohbet setlerinde deception oranını %4.8'den %2.1'e indirdi.
      • Hâlâ daha fazla gelişmeye ihtiyaç var; araştırma sürüyor, sistem kartına bakın.
  • Onun “her şeyi tam oturtma takıntısı” doğru gerçekleri bile bulandırıyor.

    • Sembolik/transformer hibrit sistemi tartışması ilginç.

    • İlgili gönderide matematiği Python'a vererek Grok 4'ün matematikte başarılı olduğu bir örnek var.

    • Kişisel olarak sembolik öncelikli bir sistem görmek istiyorum; yani gerçek “sert” matematik sembolik yöntemle, yalnızca gerektiğinde monad ile çıkarım yapılan bir yaklaşım.

    • Aloe'nin nöro-simgesel sistemi, OpenAI'nin deep research GAIA benchmark puanını 20 puan farkla geçti.

      • Gary çok konuşkan ve abartılı ama LLM sınırlamaları konusunda gerçekten çok şey biliyor (aloe.inc).
  • GPT-5'te, GPT-4'te görülmeyen bir problem gördüm.

    • Konuşma dizisinde bağlam bazen ansızın kesiliyor veya bir sonraki yanıtı doğru anlayamıyor.

    • Sanki bir bağlam temizleme süreci devrede, şimdiye kadarki bağlam özetini çıkarıp taşımıyor gibi hissediyorum.

    • Bu yüzden gerçek kullanılabilir bağlam çok daralmış olabilir; bu durum sıkça oluyor.

    • “Son konuşmaları gözden geçir” dediğimde biraz düzeliyor.

    • Benim tarafımda cevaplar çok daha kısa oldu.

  • İnsanlar mucize bekler oldu ama GPT-5 sadece en güncel kademeli gelişme.

    • Bence bu yazıda değeri olan tek nokta buydu.
    • İnsanların kademeli gelişmeyi beklemesi normal.
    • Sağlayıcıların mucize vaat etmemesi gerekir.
    • Beklenti yönetimi çok önemlidir.
    • Kademeli gelişme de kesinlikle bir gelişmedir.
    • Ama “AGI'nin GPT serisinin ardından her seferinde çıkacağını” tarzını onaylamıyorum.
  • Artık eğitim verisi kalmadı.

    • AI'nin ilerlemesi artık tamamen mimari değişime bağlı.

    • Tüm modern modeller yeni bilgilerde yerel maksimumlarda takılıp kalıyor.

    • Önceki araştırmalara göre, amaçlı yerleştirilmiş gerçek veriyle çoğunlukla sentetik veriyi birleştirerek frontier LLM eğitimi yapmak etkili oluyor.

    • Bu fikri iki yıl önce de burada söylemiştim.

      • Yağmalanacak kaliteli içerikli bir “ikinci internet” yok.
      • Mevcut bilgiler de giderek daha çok kapalı hale geliyor.
    • Bu gerçekten GPT-5'in halihazırda dünya genelindeki tüm video verisini öğrenmiş olduğu anlamına mı geliyor?

    • Günde yeni eğitim verisi üretilmiyor mu zaten?

      • YouTube, Facebook, TikTok vb.
      • İnsanlar bir içerik üretim makinesi.
  • OpenAI en iyi modeli yaratsın da, ‘GPT-5’ adıyla topluluk ve OpenAI zaten öyle bir hype yaptı ki, başarısızlığın planlı olduğu açık.

    • Aslında OpenAI'nin meme ve aşırı pazarlamayı reddedip kademeli gelişmeyi seçmesi gerekirdi; ama bu yatırımcıyı, hikâyeyi ve AI ekosistemini ayakta tutmak için ters olurdu.

    • Zaten zirveye geldik.

    • Sam Altman'ın da böyle bir beklenti yaratan ve körükleyen rolü vardı, bu da gerçek.

    • Gerçek AGI geldiğinde insanların “beklentiler karşılanmadı” argümanını nasıl kuracağını merak ediyorum.