Grok 3: The Bitter Lesson'ın Bir Başka Zaferi

(thealgorithmicbridge.com)

3 puan yazan GN⁺ 2025-02-21 | 3 yorum | WhatsApp'ta paylaş

I. Yapay zeka gelişimini yöneten ölçekleme yasaları

Elon Musk'ın Grok 3'ü "dünyadaki en akıllı yapay zeka" olarak nitelemesi abartı olmayabilir
Grok 2'ye kıyasla çok büyük bir sıçrama yaptı ve OpenAI, Google DeepMind, Anthropic gibi olgun araştırma laboratuvarlarının modelleriyle başa baş, hatta bazı alanlarda daha iyi
LMSys Arena'da tüm kategorilerde 1. sırayı aldı; matematik, kodlama ve bilim sorularında da yüksek düzeyde (o3 seviyesinde) performans gösteriyor
Bazı belirli görevlerde en üst seviye modellerin gerisinde kalsa da, ölçütlerin çoğunda eş düzeyde en güçlü (co-state-of-the-art) seviyede
Grok 3, yalnızca xAI'nin başarısının ötesinde, yapay zeka araştırmalarında ölçeğin önemini vurgulayan The Bitter Lesson'ın bir başka zaferi anlamına geliyor
Eleştirel bakışlara ya da medyadaki haberlere rağmen, yapay zeka ilerlemesinde ölçekleme yasaları (Scaling Laws) hâlâ geçerli ve önemi daha da artıyor

II. DeepSeek: Yasayı kanıtlayan istisna

DeepSeek'in başarısının arka planı
- DeepSeek, görece az hesaplama kaynağıyla (yaklaşık 50K Nvidia Hopper GPU) bile sektörün en üst düzey rakipleriyle mücadele edebildi
- ABD'li laboratuvarlar 100K'dan fazla Nvidia H100 kullanırken, DeepSeek tüm teknik yığını optimize ederek sonuç aldı
- Bu da topluluğun inandığı 'Bitter Lesson' ve 'Scaling Paradigm' hakkında soru işaretleri doğurdu
Yanlış sonuçlar ve Bitter Lesson'ın gerçek anlamı
- Bazıları DeepSeek'in başarısını "GPU'lar önemli değil, algoritmik optimizasyon daha önemli" görüşünün kanıtı olarak yorumladı
- Oysa Bitter Lesson, "algoritmik iyileştirmelere gerek yok" demek değil; mümkün olduğunda daha fazla hesaplama kaynağı kullanmanın en iyi yaklaşım olduğunu söyler
- DeepSeek, GPU eksiği nedeniyle optimizasyona odaklanmak zorundaydı; eğer 100K GPU ile eğitilmiş olsaydı daha iyi sonuç verecekti
- Yani DeepSeek'in kanıtladığı şey optimizasyonun imkânı; "ölçeklemenin anlamsız olduğu" değil
DeepSeek CEO'sunun tutumu
- CEO Liang Wenfeng bile, ABD'nin ihracat kısıtlamalarının daha iyi model geliştirmedeki başlıca engel olduğunu söylüyor
- 50K Hopper GPU kullanıp bunu söylemesi, "GPU'lar önemli değil" yorumunun tam tersine işaret ediyor
- DeepSeek'in başarısı, Bitter Lesson ve Scaling Paradigm'ı destekleyen bir örnek olarak görülebilir; sadece istisnai bir durumdur

III. xAI, "ölçekleme > optimizasyon" tezini kanıtlıyor

Grok 3 ve xAI'nin yaklaşımı
- xAI'nin başarısının, "ölçekleme optimizasyondan daha önemlidir" konusundaki şüphecilerin fikrini değiştirip değiştiremeyeceği belirsiz
- Grok 3'te mimarinin değişip değişmediği ya da altyapı optimizasyonunun düzeyi net değil; ama Memphis'teki, 100K H100 GPU'ya sahip Colossus süperbilgisayarında eğitildiği kesin
- Bu, DeepSeek'in sahip olduğu GPU sayısından çok daha fazla
DeepSeek'ten farklı strateji
- DeepSeek sınırlı GPU kaynağını sonuna kadar optimize etmek zorundayken, xAI'nin buna ihtiyacı yok; mevcut standart düzeyde optimizasyon yeterli
- Bitter Lesson'ın özü şu: "Yeterli hesaplama kaynağın varsa, gereksiz optimizasyonlara zaman harcama; doğrudan ölçekle"
- xAI, OpenAI'den bile daha fazla hesaplama kaynağı kullanarak Grok 3'ü eğitti ve sonuçta son teknoloji bir model ortaya çıkardı
Bitter Lesson yalnızca yapay zekada değil, genel bir gerçek
- "Ana kaynağın bol olduğu yerde, yardımcı kaynakları sıkıştırmaya zaman harcamaya gerek yoktur"
- Bu, çöldeki Fremenlerin teri geri dönüştürmesi yerine doğrudan yağmur yağan bir gezegende yaşamanın daha verimli olmasına benziyor
- Algoritmik gelişmeler ve hesaplama gücündeki artışın ikisi de önemli; ancak belli bir noktadan sonra daha fazla kaynak eklemek, optimizasyondan daha etkili oluyor
- Hesaplama gücü para varsa çözülebilir; ama çığır açıcı algoritmik ilerlemeler öngörülemez ve gelecekte de ölçeklenebilir olacağının garantisi yoktur
Önemli olan ölçeklemeyi durdurmamak
- Bir sınıra çarpıldığında, optimizasyona takılmak yerine ölçeklenecek unsuru değiştirmek yeterlidir
- Sınırlı kaynaklar yeniliği teşvik edebilir; ama nihayetinde "daha fazla kaynak", "daha iyi optimizasyonu" yener
- DeepSeek mecburen optimizasyona odaklandı, ancak xAI ya da OpenAI'nin DeepSeek gibi inovasyon kısıtları altında çalışmayı isteyeceği söylenemez
- Sonuçta xAI ve DeepSeek, "devasa kaynak yatırımı" ile "sınırlı kaynakları sonuna kadar kullanma" yaklaşımlarının temsilî örnekleri
- Her iki şirket de kendi koşullarında elinden gelenin en iyisini yaptı; ancak DeepSeek hesaplama kaynağı eksikliği içinde kaldığı sürece xAI'nin avantajlı konumunu koruması muhtemel
- Bu yüzden Bitter Lesson, akademide tartışmalı olsa da, son 10 yılı aşkın süredir gerçek yapay zeka geliştirmede geçerli bir ilke olduğunu kanıtlıyor

IV. xAI ve DeepSeek'e yardımcı olan paradigma değişimi

Yapay zeka yarışında sonradan gelenlerin zorluğu
- Yapay zeka yarışına geç katılmak, aşılması zor bir handikap gibi görünüyordu
- İlk başta xAI'nin OpenAI ya da Anthropic'i yakalayıp yakalayamayacağı belirsizdi
- Ancak Grok 2'den (Ağustos 2024) Grok 3'e (Şubat 2025) ilerlerken, Colossus GPU kümesinin yanı sıra xAI'nin lehine çalışan başka bir etken daha vardı
- Bu etken, yapay zeka ölçekleme paradigmasındaki değişimdi
Ön eğitim (pre-training) dönemi (2019-2024)
- Yapay zekadaki ilk ilerleme, daha büyük modelleri daha büyük veri kümeleri ve daha güçlü hesaplama kaynaklarıyla eğitmek anlamına geliyordu
- Örnek: GPT-2 (Şubat 2019) 1,5 milyar parametreye sahipti; GPT-4 (Mart 2023) ise yaklaşık 1,76 trilyon ile bunun 1.000 kattan fazlasına çıktı
- Bu yaklaşım, OpenAI gibi erken davranan oyuncuların lehineydi
  - Çünkü uzun süre veri toplayabildiler, modelleri büyütebildiler ve GPU sağlayabildiler
- Ayrıca her modeli eğitmek çoğu zaman altı aydan uzun sürdüğü için nesiller arası yineleme hızı düşüktü; bu da sonradan gelenlerin yetişmesini zorlaştırıyordu
Sonradan eğitim (post-training) dönemi (2024-???)
- 2024 itibarıyla yapay zeka sektörü, yalnızca modeli büyütmenin kademeli performans artışlarını yavaşlattığını fark etti
- Medya bunu "ölçekleme çağı bitti" diye yanlış yorumladı; oysa gerçekte olan sadece paradigmanın değişmesiydi (Ilya Sutskever'in NeurIPS 2024 konuşmasına bakılabilir)
- Odağın kaydığı noktalar:
  - "Test anı hesaplama" (test-time compute) ölçekleme → modelin cevabı daha derin düşünmesini sağlayan yaklaşım
  - Pekiştirmeli öğrenme (RLHF) + denetimli ince ayar (SFT) kombinasyonu etkili
  - Özellikle matematik ve kodlama gibi yapılandırılmış alanlarda doğrulanabilir ödül fonksiyonları performansı ciddi biçimde artırıyor
- OpenAI bunu o1-preview ile öne çıkardı; ardından yapay zeka şirketleri model boyutunu büyütmekten ziyade, "daha iyi akıl yürütebilen modeller" üretmeye yöneldi
Yeni paradigmanın xAI ve DeepSeek lehine olmasının nedeni
- Sonradan eğitim (post-training) hâlâ erken aşamada olduğu için görece düşük maliyetle hızlı performans artışı sağlayabiliyor
- OpenAI'nin yalnızca 3 ayda o1'den o3'e ilerlemesi de bunun sayesinde oldu
- DeepSeek'in daha az ve daha zayıf GPU'larla bile R1 seviyesine yetişebilmesi de aynı sebepten
- Grok da sadece 2 yıl içinde en üst seviye yapay zeka modelleri düzeyine ulaştı
Rekabet dinamiğinin değişimi
- OpenAI hâlâ bir miktar önde, ancak sonradan gelenlerin yetişemeyeceği kadar bir fark yok
- OpenAI, haftalık 300 milyon (300M) kullanıcıya sahip ChatGPT'yi işletme yükü nedeniyle en ileri araştırmalarla ürün operasyonlarını dengeli yürütmek zorunda
- Buna karşılık xAI ve DeepSeek, teknolojik yeniliğe odaklanma konusunda daha esnek
- DeepSeek uygulamasının bir dönem popüler olup sonra gerilemesinin nedeni de hesaplama kaynağı eksikliği yüzünden büyük ölçekli çıkarımı (inference) kaldıramamasıydı
- Yeni paradigma açıldıkça, yeni bir rekabet düzeni oluşuyor

V. xAI ve DeepSeek'in başarısını doğru anlamak

Bitter Lesson ve paradigma değişimi başarıyı küçültmek için kullanılmamalı
- Bitter Lesson ve ölçekleme paradigmasındaki değişim, xAI ve DeepSeek'in başarısını kolaylaştırdı; ama sonuçta bunu başaran yine onlardı
- Aynı fırsata sahip diğer şirketler (Mistral, Character, Inflection) başarısız oldu
- Grok 3, Bitter Lesson'ın zaferi; DeepSeek ise kuralı kanıtlayan istisnai örnek olsa da, anlamı bundan daha büyük
Her şey hesaplama kaynağından ibaret değil
- Bitter Lesson nasıl algoritma ve altyapı optimizasyonunun değerini inkâr etmiyorsa, şirketlerin insan kaynağı ve stratejisi de önemli
- xAI'nin şu anda yaklaşık 1.000 çalışanı var; bu sayı OpenAI'ye (yaklaşık 2.000) ve Anthropic'e (yaklaşık 700) yakın
- Ayrıca Elon Musk'ın teknoloji ve finans ağları sayesinde xAI büyük yatırımları daha kolay çekebiliyor
- DeepSeek de kısıtlı koşullarda yenilik üretebilmiş olması bakımından yüksek takdiri hak ediyor
  - Çin'deki yapay zeka ekosistemi görece daha az hırslı ve daha az deneyimliydi; devlet desteği de yetersizdi (bu yakında değişebilir)
Tarihsel bağlam içinde değerlendirmek gerekir
- OpenAI, Google DeepMind ve Anthropic, modellerini ön eğitim (pre-training) döneminde geliştirmek zorundaydı
  - O dönemde yapay zeka ölçeklemesi bugünkünden çok daha zor, daha yavaş ve daha pahalıydı
  - ChatGPT gibi bir ürünün başarılı olup olmayacağı bile belirsizdi; OpenAI bile çıkış konusunda tereddüt etmişti (ilk başta sadece bir araştırma önizlemesi olarak yayımlandı)
  - Bu şirketler, belirsiz bir geleceğe rağmen güçlü bir inançla yapay zeka yeniliğini öne taşıyan öncülerdi
- Buna karşılık, DeepSeek ve xAI bu devlerin omuzlarında yükseldi
  - Mevcut araştırmaların deneme-yanılma sürecinden kaçınabildiler ve doğrulanmış yaklaşımlarla hızla ilerleyebildiler
  - Üstelik yapay zeka paradigması sonradan eğitim (post-training) dönemine kaydığı için daha düşük maliyetle daha hızlı sonuç alabildiler
  - İlk yapay zeka öncülerinin üstlendiği büyük peşin yatırımları ve belirsizlikleri aynı ölçüde yaşamak zorunda kalmadılar
Zaferi kabul et, ama süreci de unutma
- xAI ve DeepSeek'in başarısını küçümsemek gerekmiyor; ancak yapay zekanın buraya nasıl geldiğini de unutmamak gerekiyor
- OpenAI, DeepMind ve Anthropic gibi ilk öncü oyuncular olmasaydı bugünkü sonuçlar da mümkün olmazdı
- Yani xAI ve DeepSeek'in başarısını "şanslıydılar" diye değil, "doğru zamanda ellerinden gelenin en iyisini yaptılar" diye okumak daha doğru

VI. Sonradan eğitim (post-training) bugün ucuz olabilir, ama yakında pahalılaşacak

Grok 3 ve xAI'nin gösterdiği temel ders
- Şu anda sonradan eğitim (post-training) görece ucuz; ancak yakında ön eğitim (pre-training) kadar büyük yatırım maliyetleri gerektirecek
- Şirketler sonradan eğitimi büyük ölçekte genişletmenin yolunu bulduğu anda, rekabette ayakta kalmak için para ve hesaplama kaynağı vazgeçilmez olacak
- Yapay zeka şirketleri şimdiden yüz binlerce GPU biriktiriyor ve dev kümeler kuruyor
- "GPU'lar önemli değil" iddiasının tersine, GPU edinme yarışı yapay zeka rekabetinin temel unsuru olacak
- Bu nedenle Dario Amodei (OpenAI kurucu ortaklarından) gibi isimler ihracat kontrollerinin (export controls) önemini vurguluyor
xAI'nin güçlü konumlanması
- xAI şu anda yalnızca DeepSeek'e karşı değil, OpenAI ve Anthropic'e karşı da daha avantajlı bir pozisyona sahip
- Sebebi: 100K H100 GPU kümesine sahip ve bunu yakında 200K'ya çıkaracak olması
- Bu, yeni nesil yapay zeka geliştirme yarışında çok büyük bir avantaj sağlıyor
- Meta da aynı stratejiyi izliyor ve 100K+ H100 kümesinde Llama 4'ü eğitiyor
DeepSeek'in sınırları ve ihtimalleri
- DeepSeek'in güçlü mühendisliği artık tek başına rekabet etmeye yetmeyebilir
- Teknik yığın ne kadar optimize edilirse edilsin, 150K GPU'luk farkı kapatmak mümkün değil
- Mümkün olsaydı DeepSeek de xAI gibi ölçeklemeyi seçerdi; ancak ABD'nin ihracat kısıtlamaları büyümesini sınırlıyor
- Yine de Huawei ile iş birliği yaparak bu sorunu aşma ihtimali bulunuyor
xAI'nin ek avantajları
- OpenAI ve Anthropic bile GPU kümesi erişimi açısından xAI kadar güvenli bir konumda değil
- Nvidia'nın desteği sayesinde xAI'ye yeni nesil yapay zeka donanımı öncelikli veriliyor
- Elon Musk'ın ağı ve Nvidia'nın olumlu yaklaşımı sayesinde xAI'nin gelecekteki yapay zeka yarışında benzersiz bir üstünlük kurma ihtimali yüksek

VII. Bir yıl sonra kim önde olacak?

Mevcut güçlü oyuncuların avantajı
- Tüm bunlara rağmen OpenAI, Google DeepMind ve Anthropic hâlâ küçük de olsa bir öncülük avantajı taşıyor
- OpenAI: Yakında GPT-4.5/GPT-5'i yayımlamayı planlıyor; ardından o4 modeli de geliştiriliyor
- Anthropic: Claude 4 yolda
- Google DeepMind: Gemini 2.0'ın "Thinking-model" sürümünü geliştirirken, maliyeti azaltma ve bağlam penceresini genişletme üzerine çalışıyor
Belirsiz gelecek
- 2024'te Google'ın yapay zeka yarışında öne geçeceği tahmin ediliyordu; ama artık bundan emin olmak zor
- Yapay zeka yarışı hiç olmadığı kadar sert ve AGI (yapay genel zeka) yarışında net bir kazanan yok
- Yeni paradigma sonradan gelenlerin lehine işliyor ve hızlı uyum becerisi gerektiriyor
- Google'ın bu çevikliğe sahip olup olmadığı belirsiz
- Ya da Google sadece kendi başarılarını etkili biçimde anlatamıyor olabilir
Sonuç: Sonunda kazanan ölçekleme oluyor
- Bu yazının amacı yapay zeka yarışının kazananını tahmin etmek değil
- Asıl ders, ölçeklemenin sonunda insan yaratıcılığını (ingenuity) bastırdığı gerçeği
  - Bunu söylemek üzücü olabilir, ama bazı şeyler bizim kontrolümüzün ötesinde
- Grok 3'ün başarısı, yapay zeka ilerlemesini bir kez daha "daha akıllı algoritmaların" değil, "daha büyük hesaplama gücünün" yönlendirdiğini hatırlatıyor

3 yorum

kobings 2025-02-23

"OpenAI, haftalık 300 milyon kullanıcıya sahip ChatGPT"
Orijinal metinde 300M yazıyor; lütfen 300 milyon olarak düzeltin.

doolayer 2025-02-22

ortogonal ama ortonormal değil.

GN⁺ 2025-02-21

Hacker News görüşleri

"co-state-of-the-art" bir model üretmek, ölçekleme yasalarının zaferi değil
- xAI, Grok 3 için daha fazla hesaplama gücü kullanmasına rağmen mevcut modelleri açık ara geçememişse, bu hiper ölçeklemenin yalnızca kademeli iyileştirmeler getirdiğinin bir kanıtı olabilir
- Daha fazla hesaplama gücünün bilgisayarları daha iyi hâle getirmesi zaten beklenen bir gözlemdir
- Bu yazı, 70'lerdeki sembolik yapay zeka ile 2010'lardaki sinir ağları arasındaki farkı GPT-4 ile Grok 3 arasındaki farka uygulamaya çalışıyor
- Birçok kişi Grok 3'ün gerçek performansından şüphe duyuyor ve belirli benchmark'lara göre eğitildiğinden kuşkulanıyor
- Sabine Hossenfelder, Grok 3'ün Bell teoremini açıklamada başarısız olduğunu belirtiyor
- Bu da büyük ölçekli büyütmenin zekâyı artırmadığını gösteriyor
Deepseek, SOTA sonuçlara ulaşmak için 17 ay harcadı ve xAI'nin modeli Deepseek R1'in çok ötesine geçmiyor
- xAI, $3 billion'ın $2.5 billion'ını GPU'lara, $0.5 billion'ını ise yeteneğe yatıracak
- Deepseek, $1 billion'ı GPU'lara, $2 billion'ı ise yeteneğe yatıracak
- Deepseek yaklaşımının daha ölçeklenebilir olduğu öne sürülüyor
GPQA Diamond'da akıl yürütmesiz bir modelin %75 almış olmasına şüpheyle yaklaşılıyor
- xAI'nin Grok 3 API'sini gelecek hafta sunması bekleniyor; böylece bireysel değerlendirmelerle gerçek performans görülebilir
- DeepSeek'in 50k Hopper GPU'ya sahip olduğu iddiası abartılı olabilir
- DeepSeek'in stajyer ilanında yalnızca "10k A100s'e sınırsız erişim" ifadesi geçiyor
Son değişimlerden garip sonuçlar çıkarılıyor
- Yapay zeka çılgınlığına çok para akıyor, ancak bunun yakında sona ereceği düşünülüyor
- Teknoloji geliştirme deneyimi yüksek olan kişiler uzun vadede en avantajlı konumda olacak
Eğer Grok, diğer önde gelen modellerle benzer düzeyde zekâya sahipse, hangi işletmenin Grok'a geçeceği sorgulanıyor
Daha fazla hesaplama gücü kullanmak milyarlarca dolarlık maliyet doğuruyorsa, "acı ders" artık donanımla değil parayla ilgili olabilir
- Daha az enerji tüketen modeller için, VC fonu olmadan da uygulanabilir bir yol olabilir
Yazının "acı ders" hakkındaki iddiası mantık hatalarına dayanıyor
- Ölçekleme ile optimizasyonu birbirini dışlayan stratejiler gibi çerçeveliyor
- DeepSeek'in algoritmik yenilikleri, ölçekleme çabalarını tamamlıyor
- Hesaplamanın "post-training dönemi"ne hükmedeceği iddiası, olası bozucu etkenleri göz ardı ediyor
Yetenek kazanımının nasıl evrileceği ilgi çekici bulunuyor
- Güçlü DEI odaklı PR nedeniyle birçok mühendis hayal kırıklığına uğramış durumda
- Etik nedenlerle Çin'le yakın ilişki kurmaktan kaçınan kişilerin, aynı yaklaşımı ABD için de uygulayıp uygulamayacağı sorgulanıyor
Bir başka yapay zeka abartısı blog yazısı
- Benchmark sonuçlarındaki farklı renkli çubuklardan hiç söz edilmiyor
- Grok-3, ölçekleme yasalarını anlamlı bir şekilde ne kanıtlıyor ne de çürütüyor