3 puan yazan GN⁺ 2025-02-21 | 3 yorum | WhatsApp'ta paylaş

I. Yapay zeka gelişimini yöneten ölçekleme yasaları

  • Elon Musk'ın Grok 3'ü "dünyadaki en akıllı yapay zeka" olarak nitelemesi abartı olmayabilir
  • Grok 2'ye kıyasla çok büyük bir sıçrama yaptı ve OpenAI, Google DeepMind, Anthropic gibi olgun araştırma laboratuvarlarının modelleriyle başa baş, hatta bazı alanlarda daha iyi
  • LMSys Arena'da tüm kategorilerde 1. sırayı aldı; matematik, kodlama ve bilim sorularında da yüksek düzeyde (o3 seviyesinde) performans gösteriyor
  • Bazı belirli görevlerde en üst seviye modellerin gerisinde kalsa da, ölçütlerin çoğunda eş düzeyde en güçlü (co-state-of-the-art) seviyede
  • Grok 3, yalnızca xAI'nin başarısının ötesinde, yapay zeka araştırmalarında ölçeğin önemini vurgulayan The Bitter Lesson'ın bir başka zaferi anlamına geliyor
  • Eleştirel bakışlara ya da medyadaki haberlere rağmen, yapay zeka ilerlemesinde ölçekleme yasaları (Scaling Laws) hâlâ geçerli ve önemi daha da artıyor

II. DeepSeek: Yasayı kanıtlayan istisna

  • DeepSeek'in başarısının arka planı
    • DeepSeek, görece az hesaplama kaynağıyla (yaklaşık 50K Nvidia Hopper GPU) bile sektörün en üst düzey rakipleriyle mücadele edebildi
    • ABD'li laboratuvarlar 100K'dan fazla Nvidia H100 kullanırken, DeepSeek tüm teknik yığını optimize ederek sonuç aldı
    • Bu da topluluğun inandığı 'Bitter Lesson' ve 'Scaling Paradigm' hakkında soru işaretleri doğurdu
  • Yanlış sonuçlar ve Bitter Lesson'ın gerçek anlamı
    • Bazıları DeepSeek'in başarısını "GPU'lar önemli değil, algoritmik optimizasyon daha önemli" görüşünün kanıtı olarak yorumladı
    • Oysa Bitter Lesson, "algoritmik iyileştirmelere gerek yok" demek değil; mümkün olduğunda daha fazla hesaplama kaynağı kullanmanın en iyi yaklaşım olduğunu söyler
    • DeepSeek, GPU eksiği nedeniyle optimizasyona odaklanmak zorundaydı; eğer 100K GPU ile eğitilmiş olsaydı daha iyi sonuç verecekti
    • Yani DeepSeek'in kanıtladığı şey optimizasyonun imkânı; "ölçeklemenin anlamsız olduğu" değil
  • DeepSeek CEO'sunun tutumu
    • CEO Liang Wenfeng bile, ABD'nin ihracat kısıtlamalarının daha iyi model geliştirmedeki başlıca engel olduğunu söylüyor
    • 50K Hopper GPU kullanıp bunu söylemesi, "GPU'lar önemli değil" yorumunun tam tersine işaret ediyor
    • DeepSeek'in başarısı, Bitter Lesson ve Scaling Paradigm'ı destekleyen bir örnek olarak görülebilir; sadece istisnai bir durumdur

III. xAI, "ölçekleme > optimizasyon" tezini kanıtlıyor

  • Grok 3 ve xAI'nin yaklaşımı
    • xAI'nin başarısının, "ölçekleme optimizasyondan daha önemlidir" konusundaki şüphecilerin fikrini değiştirip değiştiremeyeceği belirsiz
    • Grok 3'te mimarinin değişip değişmediği ya da altyapı optimizasyonunun düzeyi net değil; ama Memphis'teki, 100K H100 GPU'ya sahip Colossus süperbilgisayarında eğitildiği kesin
    • Bu, DeepSeek'in sahip olduğu GPU sayısından çok daha fazla
  • DeepSeek'ten farklı strateji
    • DeepSeek sınırlı GPU kaynağını sonuna kadar optimize etmek zorundayken, xAI'nin buna ihtiyacı yok; mevcut standart düzeyde optimizasyon yeterli
    • Bitter Lesson'ın özü şu: "Yeterli hesaplama kaynağın varsa, gereksiz optimizasyonlara zaman harcama; doğrudan ölçekle"
    • xAI, OpenAI'den bile daha fazla hesaplama kaynağı kullanarak Grok 3'ü eğitti ve sonuçta son teknoloji bir model ortaya çıkardı
  • Bitter Lesson yalnızca yapay zekada değil, genel bir gerçek
    • "Ana kaynağın bol olduğu yerde, yardımcı kaynakları sıkıştırmaya zaman harcamaya gerek yoktur"
    • Bu, çöldeki Fremenlerin teri geri dönüştürmesi yerine doğrudan yağmur yağan bir gezegende yaşamanın daha verimli olmasına benziyor
    • Algoritmik gelişmeler ve hesaplama gücündeki artışın ikisi de önemli; ancak belli bir noktadan sonra daha fazla kaynak eklemek, optimizasyondan daha etkili oluyor
    • Hesaplama gücü para varsa çözülebilir; ama çığır açıcı algoritmik ilerlemeler öngörülemez ve gelecekte de ölçeklenebilir olacağının garantisi yoktur
  • Önemli olan ölçeklemeyi durdurmamak
    • Bir sınıra çarpıldığında, optimizasyona takılmak yerine ölçeklenecek unsuru değiştirmek yeterlidir
    • Sınırlı kaynaklar yeniliği teşvik edebilir; ama nihayetinde "daha fazla kaynak", "daha iyi optimizasyonu" yener
    • DeepSeek mecburen optimizasyona odaklandı, ancak xAI ya da OpenAI'nin DeepSeek gibi inovasyon kısıtları altında çalışmayı isteyeceği söylenemez
    • Sonuçta xAI ve DeepSeek, "devasa kaynak yatırımı" ile "sınırlı kaynakları sonuna kadar kullanma" yaklaşımlarının temsilî örnekleri
    • Her iki şirket de kendi koşullarında elinden gelenin en iyisini yaptı; ancak DeepSeek hesaplama kaynağı eksikliği içinde kaldığı sürece xAI'nin avantajlı konumunu koruması muhtemel
    • Bu yüzden Bitter Lesson, akademide tartışmalı olsa da, son 10 yılı aşkın süredir gerçek yapay zeka geliştirmede geçerli bir ilke olduğunu kanıtlıyor

IV. xAI ve DeepSeek'e yardımcı olan paradigma değişimi

  • Yapay zeka yarışında sonradan gelenlerin zorluğu
    • Yapay zeka yarışına geç katılmak, aşılması zor bir handikap gibi görünüyordu
    • İlk başta xAI'nin OpenAI ya da Anthropic'i yakalayıp yakalayamayacağı belirsizdi
    • Ancak Grok 2'den (Ağustos 2024) Grok 3'e (Şubat 2025) ilerlerken, Colossus GPU kümesinin yanı sıra xAI'nin lehine çalışan başka bir etken daha vardı
    • Bu etken, yapay zeka ölçekleme paradigmasındaki değişimdi
  • Ön eğitim (pre-training) dönemi (2019-2024)
    • Yapay zekadaki ilk ilerleme, daha büyük modelleri daha büyük veri kümeleri ve daha güçlü hesaplama kaynaklarıyla eğitmek anlamına geliyordu
    • Örnek: GPT-2 (Şubat 2019) 1,5 milyar parametreye sahipti; GPT-4 (Mart 2023) ise yaklaşık 1,76 trilyon ile bunun 1.000 kattan fazlasına çıktı
    • Bu yaklaşım, OpenAI gibi erken davranan oyuncuların lehineydi
      • Çünkü uzun süre veri toplayabildiler, modelleri büyütebildiler ve GPU sağlayabildiler
    • Ayrıca her modeli eğitmek çoğu zaman altı aydan uzun sürdüğü için nesiller arası yineleme hızı düşüktü; bu da sonradan gelenlerin yetişmesini zorlaştırıyordu
  • Sonradan eğitim (post-training) dönemi (2024-???)
    • 2024 itibarıyla yapay zeka sektörü, yalnızca modeli büyütmenin kademeli performans artışlarını yavaşlattığını fark etti
    • Medya bunu "ölçekleme çağı bitti" diye yanlış yorumladı; oysa gerçekte olan sadece paradigmanın değişmesiydi (Ilya Sutskever'in NeurIPS 2024 konuşmasına bakılabilir)
    • Odağın kaydığı noktalar:
      • "Test anı hesaplama" (test-time compute) ölçekleme → modelin cevabı daha derin düşünmesini sağlayan yaklaşım
      • Pekiştirmeli öğrenme (RLHF) + denetimli ince ayar (SFT) kombinasyonu etkili
      • Özellikle matematik ve kodlama gibi yapılandırılmış alanlarda doğrulanabilir ödül fonksiyonları performansı ciddi biçimde artırıyor
    • OpenAI bunu o1-preview ile öne çıkardı; ardından yapay zeka şirketleri model boyutunu büyütmekten ziyade, "daha iyi akıl yürütebilen modeller" üretmeye yöneldi
  • Yeni paradigmanın xAI ve DeepSeek lehine olmasının nedeni
    • Sonradan eğitim (post-training) hâlâ erken aşamada olduğu için görece düşük maliyetle hızlı performans artışı sağlayabiliyor
    • OpenAI'nin yalnızca 3 ayda o1'den o3'e ilerlemesi de bunun sayesinde oldu
    • DeepSeek'in daha az ve daha zayıf GPU'larla bile R1 seviyesine yetişebilmesi de aynı sebepten
    • Grok da sadece 2 yıl içinde en üst seviye yapay zeka modelleri düzeyine ulaştı
  • Rekabet dinamiğinin değişimi
    • OpenAI hâlâ bir miktar önde, ancak sonradan gelenlerin yetişemeyeceği kadar bir fark yok
    • OpenAI, haftalık 300 milyon (300M) kullanıcıya sahip ChatGPT'yi işletme yükü nedeniyle en ileri araştırmalarla ürün operasyonlarını dengeli yürütmek zorunda
    • Buna karşılık xAI ve DeepSeek, teknolojik yeniliğe odaklanma konusunda daha esnek
    • DeepSeek uygulamasının bir dönem popüler olup sonra gerilemesinin nedeni de hesaplama kaynağı eksikliği yüzünden büyük ölçekli çıkarımı (inference) kaldıramamasıydı
    • Yeni paradigma açıldıkça, yeni bir rekabet düzeni oluşuyor

V. xAI ve DeepSeek'in başarısını doğru anlamak

  • Bitter Lesson ve paradigma değişimi başarıyı küçültmek için kullanılmamalı
    • Bitter Lesson ve ölçekleme paradigmasındaki değişim, xAI ve DeepSeek'in başarısını kolaylaştırdı; ama sonuçta bunu başaran yine onlardı
    • Aynı fırsata sahip diğer şirketler (Mistral, Character, Inflection) başarısız oldu
    • Grok 3, Bitter Lesson'ın zaferi; DeepSeek ise kuralı kanıtlayan istisnai örnek olsa da, anlamı bundan daha büyük
  • Her şey hesaplama kaynağından ibaret değil
    • Bitter Lesson nasıl algoritma ve altyapı optimizasyonunun değerini inkâr etmiyorsa, şirketlerin insan kaynağı ve stratejisi de önemli
    • xAI'nin şu anda yaklaşık 1.000 çalışanı var; bu sayı OpenAI'ye (yaklaşık 2.000) ve Anthropic'e (yaklaşık 700) yakın
    • Ayrıca Elon Musk'ın teknoloji ve finans ağları sayesinde xAI büyük yatırımları daha kolay çekebiliyor
    • DeepSeek de kısıtlı koşullarda yenilik üretebilmiş olması bakımından yüksek takdiri hak ediyor
      • Çin'deki yapay zeka ekosistemi görece daha az hırslı ve daha az deneyimliydi; devlet desteği de yetersizdi (bu yakında değişebilir)
  • Tarihsel bağlam içinde değerlendirmek gerekir
    • OpenAI, Google DeepMind ve Anthropic, modellerini ön eğitim (pre-training) döneminde geliştirmek zorundaydı
      • O dönemde yapay zeka ölçeklemesi bugünkünden çok daha zor, daha yavaş ve daha pahalıydı
      • ChatGPT gibi bir ürünün başarılı olup olmayacağı bile belirsizdi; OpenAI bile çıkış konusunda tereddüt etmişti (ilk başta sadece bir araştırma önizlemesi olarak yayımlandı)
      • Bu şirketler, belirsiz bir geleceğe rağmen güçlü bir inançla yapay zeka yeniliğini öne taşıyan öncülerdi
    • Buna karşılık, DeepSeek ve xAI bu devlerin omuzlarında yükseldi
      • Mevcut araştırmaların deneme-yanılma sürecinden kaçınabildiler ve doğrulanmış yaklaşımlarla hızla ilerleyebildiler
      • Üstelik yapay zeka paradigması sonradan eğitim (post-training) dönemine kaydığı için daha düşük maliyetle daha hızlı sonuç alabildiler
      • İlk yapay zeka öncülerinin üstlendiği büyük peşin yatırımları ve belirsizlikleri aynı ölçüde yaşamak zorunda kalmadılar
  • Zaferi kabul et, ama süreci de unutma
    • xAI ve DeepSeek'in başarısını küçümsemek gerekmiyor; ancak yapay zekanın buraya nasıl geldiğini de unutmamak gerekiyor
    • OpenAI, DeepMind ve Anthropic gibi ilk öncü oyuncular olmasaydı bugünkü sonuçlar da mümkün olmazdı
    • Yani xAI ve DeepSeek'in başarısını "şanslıydılar" diye değil, "doğru zamanda ellerinden gelenin en iyisini yaptılar" diye okumak daha doğru

VI. Sonradan eğitim (post-training) bugün ucuz olabilir, ama yakında pahalılaşacak

  • Grok 3 ve xAI'nin gösterdiği temel ders
    • Şu anda sonradan eğitim (post-training) görece ucuz; ancak yakında ön eğitim (pre-training) kadar büyük yatırım maliyetleri gerektirecek
    • Şirketler sonradan eğitimi büyük ölçekte genişletmenin yolunu bulduğu anda, rekabette ayakta kalmak için para ve hesaplama kaynağı vazgeçilmez olacak
    • Yapay zeka şirketleri şimdiden yüz binlerce GPU biriktiriyor ve dev kümeler kuruyor
    • "GPU'lar önemli değil" iddiasının tersine, GPU edinme yarışı yapay zeka rekabetinin temel unsuru olacak
    • Bu nedenle Dario Amodei (OpenAI kurucu ortaklarından) gibi isimler ihracat kontrollerinin (export controls) önemini vurguluyor
  • xAI'nin güçlü konumlanması
    • xAI şu anda yalnızca DeepSeek'e karşı değil, OpenAI ve Anthropic'e karşı da daha avantajlı bir pozisyona sahip
    • Sebebi: 100K H100 GPU kümesine sahip ve bunu yakında 200K'ya çıkaracak olması
    • Bu, yeni nesil yapay zeka geliştirme yarışında çok büyük bir avantaj sağlıyor
    • Meta da aynı stratejiyi izliyor ve 100K+ H100 kümesinde Llama 4'ü eğitiyor
  • DeepSeek'in sınırları ve ihtimalleri
    • DeepSeek'in güçlü mühendisliği artık tek başına rekabet etmeye yetmeyebilir
    • Teknik yığın ne kadar optimize edilirse edilsin, 150K GPU'luk farkı kapatmak mümkün değil
    • Mümkün olsaydı DeepSeek de xAI gibi ölçeklemeyi seçerdi; ancak ABD'nin ihracat kısıtlamaları büyümesini sınırlıyor
    • Yine de Huawei ile iş birliği yaparak bu sorunu aşma ihtimali bulunuyor
  • xAI'nin ek avantajları
    • OpenAI ve Anthropic bile GPU kümesi erişimi açısından xAI kadar güvenli bir konumda değil
    • Nvidia'nın desteği sayesinde xAI'ye yeni nesil yapay zeka donanımı öncelikli veriliyor
    • Elon Musk'ın ağı ve Nvidia'nın olumlu yaklaşımı sayesinde xAI'nin gelecekteki yapay zeka yarışında benzersiz bir üstünlük kurma ihtimali yüksek

VII. Bir yıl sonra kim önde olacak?

  • Mevcut güçlü oyuncuların avantajı
    • Tüm bunlara rağmen OpenAI, Google DeepMind ve Anthropic hâlâ küçük de olsa bir öncülük avantajı taşıyor
    • OpenAI: Yakında GPT-4.5/GPT-5'i yayımlamayı planlıyor; ardından o4 modeli de geliştiriliyor
    • Anthropic: Claude 4 yolda
    • Google DeepMind: Gemini 2.0'ın "Thinking-model" sürümünü geliştirirken, maliyeti azaltma ve bağlam penceresini genişletme üzerine çalışıyor
  • Belirsiz gelecek
    • 2024'te Google'ın yapay zeka yarışında öne geçeceği tahmin ediliyordu; ama artık bundan emin olmak zor
    • Yapay zeka yarışı hiç olmadığı kadar sert ve AGI (yapay genel zeka) yarışında net bir kazanan yok
    • Yeni paradigma sonradan gelenlerin lehine işliyor ve hızlı uyum becerisi gerektiriyor
    • Google'ın bu çevikliğe sahip olup olmadığı belirsiz
    • Ya da Google sadece kendi başarılarını etkili biçimde anlatamıyor olabilir
  • Sonuç: Sonunda kazanan ölçekleme oluyor
    • Bu yazının amacı yapay zeka yarışının kazananını tahmin etmek değil
    • Asıl ders, ölçeklemenin sonunda insan yaratıcılığını (ingenuity) bastırdığı gerçeği
      • Bunu söylemek üzücü olabilir, ama bazı şeyler bizim kontrolümüzün ötesinde
    • Grok 3'ün başarısı, yapay zeka ilerlemesini bir kez daha "daha akıllı algoritmaların" değil, "daha büyük hesaplama gücünün" yönlendirdiğini hatırlatıyor

3 yorum

 
kobings 2025-02-23

"OpenAI, haftalık 300 milyon kullanıcıya sahip ChatGPT"
Orijinal metinde 300M yazıyor; lütfen 300 milyon olarak düzeltin.

 
doolayer 2025-02-22

ortogonal ama ortonormal değil.

 
GN⁺ 2025-02-21
Hacker News görüşleri
  • "co-state-of-the-art" bir model üretmek, ölçekleme yasalarının zaferi değil

    • xAI, Grok 3 için daha fazla hesaplama gücü kullanmasına rağmen mevcut modelleri açık ara geçememişse, bu hiper ölçeklemenin yalnızca kademeli iyileştirmeler getirdiğinin bir kanıtı olabilir
    • Daha fazla hesaplama gücünün bilgisayarları daha iyi hâle getirmesi zaten beklenen bir gözlemdir
    • Bu yazı, 70'lerdeki sembolik yapay zeka ile 2010'lardaki sinir ağları arasındaki farkı GPT-4 ile Grok 3 arasındaki farka uygulamaya çalışıyor
    • Birçok kişi Grok 3'ün gerçek performansından şüphe duyuyor ve belirli benchmark'lara göre eğitildiğinden kuşkulanıyor
    • Sabine Hossenfelder, Grok 3'ün Bell teoremini açıklamada başarısız olduğunu belirtiyor
    • Bu da büyük ölçekli büyütmenin zekâyı artırmadığını gösteriyor
  • Deepseek, SOTA sonuçlara ulaşmak için 17 ay harcadı ve xAI'nin modeli Deepseek R1'in çok ötesine geçmiyor

    • xAI, $3 billion'ın $2.5 billion'ını GPU'lara, $0.5 billion'ını ise yeteneğe yatıracak
    • Deepseek, $1 billion'ı GPU'lara, $2 billion'ı ise yeteneğe yatıracak
    • Deepseek yaklaşımının daha ölçeklenebilir olduğu öne sürülüyor
  • GPQA Diamond'da akıl yürütmesiz bir modelin %75 almış olmasına şüpheyle yaklaşılıyor

    • xAI'nin Grok 3 API'sini gelecek hafta sunması bekleniyor; böylece bireysel değerlendirmelerle gerçek performans görülebilir
    • DeepSeek'in 50k Hopper GPU'ya sahip olduğu iddiası abartılı olabilir
    • DeepSeek'in stajyer ilanında yalnızca "10k A100s'e sınırsız erişim" ifadesi geçiyor
  • Son değişimlerden garip sonuçlar çıkarılıyor

    • Yapay zeka çılgınlığına çok para akıyor, ancak bunun yakında sona ereceği düşünülüyor
    • Teknoloji geliştirme deneyimi yüksek olan kişiler uzun vadede en avantajlı konumda olacak
  • Eğer Grok, diğer önde gelen modellerle benzer düzeyde zekâya sahipse, hangi işletmenin Grok'a geçeceği sorgulanıyor

  • Daha fazla hesaplama gücü kullanmak milyarlarca dolarlık maliyet doğuruyorsa, "acı ders" artık donanımla değil parayla ilgili olabilir

    • Daha az enerji tüketen modeller için, VC fonu olmadan da uygulanabilir bir yol olabilir
  • Yazının "acı ders" hakkındaki iddiası mantık hatalarına dayanıyor

    • Ölçekleme ile optimizasyonu birbirini dışlayan stratejiler gibi çerçeveliyor
    • DeepSeek'in algoritmik yenilikleri, ölçekleme çabalarını tamamlıyor
    • Hesaplamanın "post-training dönemi"ne hükmedeceği iddiası, olası bozucu etkenleri göz ardı ediyor
  • Yetenek kazanımının nasıl evrileceği ilgi çekici bulunuyor

    • Güçlü DEI odaklı PR nedeniyle birçok mühendis hayal kırıklığına uğramış durumda
    • Etik nedenlerle Çin'le yakın ilişki kurmaktan kaçınan kişilerin, aynı yaklaşımı ABD için de uygulayıp uygulamayacağı sorgulanıyor
  • Bir başka yapay zeka abartısı blog yazısı

    • Benchmark sonuçlarındaki farklı renkli çubuklardan hiç söz edilmiyor
    • Grok-3, ölçekleme yasalarını anlamlı bir şekilde ne kanıtlıyor ne de çürütüyor