I. Yapay zeka gelişimini yöneten ölçekleme yasaları
- Elon Musk'ın Grok 3'ü "dünyadaki en akıllı yapay zeka" olarak nitelemesi abartı olmayabilir
- Grok 2'ye kıyasla çok büyük bir sıçrama yaptı ve OpenAI, Google DeepMind, Anthropic gibi olgun araştırma laboratuvarlarının modelleriyle başa baş, hatta bazı alanlarda daha iyi
- LMSys Arena'da tüm kategorilerde 1. sırayı aldı; matematik, kodlama ve bilim sorularında da yüksek düzeyde (
o3 seviyesinde) performans gösteriyor
- Bazı belirli görevlerde en üst seviye modellerin gerisinde kalsa da, ölçütlerin çoğunda eş düzeyde en güçlü (co-state-of-the-art) seviyede
- Grok 3, yalnızca xAI'nin başarısının ötesinde, yapay zeka araştırmalarında ölçeğin önemini vurgulayan The Bitter Lesson'ın bir başka zaferi anlamına geliyor
- Eleştirel bakışlara ya da medyadaki haberlere rağmen, yapay zeka ilerlemesinde ölçekleme yasaları (Scaling Laws) hâlâ geçerli ve önemi daha da artıyor
II. DeepSeek: Yasayı kanıtlayan istisna
- DeepSeek'in başarısının arka planı
- DeepSeek, görece az hesaplama kaynağıyla (yaklaşık 50K Nvidia Hopper GPU) bile sektörün en üst düzey rakipleriyle mücadele edebildi
- ABD'li laboratuvarlar 100K'dan fazla Nvidia H100 kullanırken, DeepSeek tüm teknik yığını optimize ederek sonuç aldı
- Bu da topluluğun inandığı 'Bitter Lesson' ve 'Scaling Paradigm' hakkında soru işaretleri doğurdu
- Yanlış sonuçlar ve Bitter Lesson'ın gerçek anlamı
- Bazıları DeepSeek'in başarısını "GPU'lar önemli değil, algoritmik optimizasyon daha önemli" görüşünün kanıtı olarak yorumladı
- Oysa Bitter Lesson, "algoritmik iyileştirmelere gerek yok" demek değil; mümkün olduğunda daha fazla hesaplama kaynağı kullanmanın en iyi yaklaşım olduğunu söyler
- DeepSeek, GPU eksiği nedeniyle optimizasyona odaklanmak zorundaydı; eğer 100K GPU ile eğitilmiş olsaydı daha iyi sonuç verecekti
- Yani DeepSeek'in kanıtladığı şey optimizasyonun imkânı; "ölçeklemenin anlamsız olduğu" değil
- DeepSeek CEO'sunun tutumu
- CEO Liang Wenfeng bile, ABD'nin ihracat kısıtlamalarının daha iyi model geliştirmedeki başlıca engel olduğunu söylüyor
- 50K Hopper GPU kullanıp bunu söylemesi, "GPU'lar önemli değil" yorumunun tam tersine işaret ediyor
- DeepSeek'in başarısı, Bitter Lesson ve Scaling Paradigm'ı destekleyen bir örnek olarak görülebilir; sadece istisnai bir durumdur
III. xAI, "ölçekleme > optimizasyon" tezini kanıtlıyor
- Grok 3 ve xAI'nin yaklaşımı
- xAI'nin başarısının, "ölçekleme optimizasyondan daha önemlidir" konusundaki şüphecilerin fikrini değiştirip değiştiremeyeceği belirsiz
- Grok 3'te mimarinin değişip değişmediği ya da altyapı optimizasyonunun düzeyi net değil; ama Memphis'teki, 100K H100 GPU'ya sahip Colossus süperbilgisayarında eğitildiği kesin
- Bu, DeepSeek'in sahip olduğu GPU sayısından çok daha fazla
- DeepSeek'ten farklı strateji
- DeepSeek sınırlı GPU kaynağını sonuna kadar optimize etmek zorundayken, xAI'nin buna ihtiyacı yok; mevcut standart düzeyde optimizasyon yeterli
- Bitter Lesson'ın özü şu: "Yeterli hesaplama kaynağın varsa, gereksiz optimizasyonlara zaman harcama; doğrudan ölçekle"
- xAI, OpenAI'den bile daha fazla hesaplama kaynağı kullanarak Grok 3'ü eğitti ve sonuçta son teknoloji bir model ortaya çıkardı
- Bitter Lesson yalnızca yapay zekada değil, genel bir gerçek
- "Ana kaynağın bol olduğu yerde, yardımcı kaynakları sıkıştırmaya zaman harcamaya gerek yoktur"
- Bu, çöldeki Fremenlerin teri geri dönüştürmesi yerine doğrudan yağmur yağan bir gezegende yaşamanın daha verimli olmasına benziyor
- Algoritmik gelişmeler ve hesaplama gücündeki artışın ikisi de önemli; ancak belli bir noktadan sonra daha fazla kaynak eklemek, optimizasyondan daha etkili oluyor
- Hesaplama gücü para varsa çözülebilir; ama çığır açıcı algoritmik ilerlemeler öngörülemez ve gelecekte de ölçeklenebilir olacağının garantisi yoktur
- Önemli olan ölçeklemeyi durdurmamak
- Bir sınıra çarpıldığında, optimizasyona takılmak yerine ölçeklenecek unsuru değiştirmek yeterlidir
- Sınırlı kaynaklar yeniliği teşvik edebilir; ama nihayetinde "daha fazla kaynak", "daha iyi optimizasyonu" yener
- DeepSeek mecburen optimizasyona odaklandı, ancak xAI ya da OpenAI'nin DeepSeek gibi inovasyon kısıtları altında çalışmayı isteyeceği söylenemez
- Sonuçta xAI ve DeepSeek, "devasa kaynak yatırımı" ile "sınırlı kaynakları sonuna kadar kullanma" yaklaşımlarının temsilî örnekleri
- Her iki şirket de kendi koşullarında elinden gelenin en iyisini yaptı; ancak DeepSeek hesaplama kaynağı eksikliği içinde kaldığı sürece xAI'nin avantajlı konumunu koruması muhtemel
- Bu yüzden Bitter Lesson, akademide tartışmalı olsa da, son 10 yılı aşkın süredir gerçek yapay zeka geliştirmede geçerli bir ilke olduğunu kanıtlıyor
IV. xAI ve DeepSeek'e yardımcı olan paradigma değişimi
- Yapay zeka yarışında sonradan gelenlerin zorluğu
- Yapay zeka yarışına geç katılmak, aşılması zor bir handikap gibi görünüyordu
- İlk başta xAI'nin OpenAI ya da Anthropic'i yakalayıp yakalayamayacağı belirsizdi
- Ancak Grok 2'den (Ağustos 2024) Grok 3'e (Şubat 2025) ilerlerken, Colossus GPU kümesinin yanı sıra xAI'nin lehine çalışan başka bir etken daha vardı
- Bu etken, yapay zeka ölçekleme paradigmasındaki değişimdi
- Ön eğitim (pre-training) dönemi (2019-2024)
- Yapay zekadaki ilk ilerleme, daha büyük modelleri daha büyük veri kümeleri ve daha güçlü hesaplama kaynaklarıyla eğitmek anlamına geliyordu
- Örnek: GPT-2 (Şubat 2019) 1,5 milyar parametreye sahipti; GPT-4 (Mart 2023) ise yaklaşık 1,76 trilyon ile bunun 1.000 kattan fazlasına çıktı
- Bu yaklaşım, OpenAI gibi erken davranan oyuncuların lehineydi
- Çünkü uzun süre veri toplayabildiler, modelleri büyütebildiler ve GPU sağlayabildiler
- Ayrıca her modeli eğitmek çoğu zaman altı aydan uzun sürdüğü için nesiller arası yineleme hızı düşüktü; bu da sonradan gelenlerin yetişmesini zorlaştırıyordu
- Sonradan eğitim (post-training) dönemi (2024-???)
- 2024 itibarıyla yapay zeka sektörü, yalnızca modeli büyütmenin kademeli performans artışlarını yavaşlattığını fark etti
- Medya bunu "ölçekleme çağı bitti" diye yanlış yorumladı; oysa gerçekte olan sadece paradigmanın değişmesiydi (Ilya Sutskever'in NeurIPS 2024 konuşmasına bakılabilir)
- Odağın kaydığı noktalar:
- "Test anı hesaplama" (test-time compute) ölçekleme → modelin cevabı daha derin düşünmesini sağlayan yaklaşım
- Pekiştirmeli öğrenme (RLHF) + denetimli ince ayar (SFT) kombinasyonu etkili
- Özellikle matematik ve kodlama gibi yapılandırılmış alanlarda doğrulanabilir ödül fonksiyonları performansı ciddi biçimde artırıyor
- OpenAI bunu
o1-preview ile öne çıkardı; ardından yapay zeka şirketleri model boyutunu büyütmekten ziyade, "daha iyi akıl yürütebilen modeller" üretmeye yöneldi
- Yeni paradigmanın xAI ve DeepSeek lehine olmasının nedeni
- Sonradan eğitim (post-training) hâlâ erken aşamada olduğu için görece düşük maliyetle hızlı performans artışı sağlayabiliyor
- OpenAI'nin yalnızca 3 ayda
o1'den o3'e ilerlemesi de bunun sayesinde oldu
- DeepSeek'in daha az ve daha zayıf GPU'larla bile R1 seviyesine yetişebilmesi de aynı sebepten
- Grok da sadece 2 yıl içinde en üst seviye yapay zeka modelleri düzeyine ulaştı
- Rekabet dinamiğinin değişimi
- OpenAI hâlâ bir miktar önde, ancak sonradan gelenlerin yetişemeyeceği kadar bir fark yok
- OpenAI, haftalık 300 milyon (300M) kullanıcıya sahip ChatGPT'yi işletme yükü nedeniyle en ileri araştırmalarla ürün operasyonlarını dengeli yürütmek zorunda
- Buna karşılık xAI ve DeepSeek, teknolojik yeniliğe odaklanma konusunda daha esnek
- DeepSeek uygulamasının bir dönem popüler olup sonra gerilemesinin nedeni de hesaplama kaynağı eksikliği yüzünden büyük ölçekli çıkarımı (inference) kaldıramamasıydı
- Yeni paradigma açıldıkça, yeni bir rekabet düzeni oluşuyor
V. xAI ve DeepSeek'in başarısını doğru anlamak
- Bitter Lesson ve paradigma değişimi başarıyı küçültmek için kullanılmamalı
- Bitter Lesson ve ölçekleme paradigmasındaki değişim, xAI ve DeepSeek'in başarısını kolaylaştırdı; ama sonuçta bunu başaran yine onlardı
- Aynı fırsata sahip diğer şirketler (Mistral, Character, Inflection) başarısız oldu
- Grok 3, Bitter Lesson'ın zaferi; DeepSeek ise kuralı kanıtlayan istisnai örnek olsa da, anlamı bundan daha büyük
- Her şey hesaplama kaynağından ibaret değil
- Bitter Lesson nasıl algoritma ve altyapı optimizasyonunun değerini inkâr etmiyorsa, şirketlerin insan kaynağı ve stratejisi de önemli
- xAI'nin şu anda yaklaşık 1.000 çalışanı var; bu sayı OpenAI'ye (yaklaşık 2.000) ve Anthropic'e (yaklaşık 700) yakın
- Ayrıca Elon Musk'ın teknoloji ve finans ağları sayesinde xAI büyük yatırımları daha kolay çekebiliyor
- DeepSeek de kısıtlı koşullarda yenilik üretebilmiş olması bakımından yüksek takdiri hak ediyor
- Çin'deki yapay zeka ekosistemi görece daha az hırslı ve daha az deneyimliydi; devlet desteği de yetersizdi (bu yakında değişebilir)
- Tarihsel bağlam içinde değerlendirmek gerekir
- OpenAI, Google DeepMind ve Anthropic, modellerini ön eğitim (pre-training) döneminde geliştirmek zorundaydı
- O dönemde yapay zeka ölçeklemesi bugünkünden çok daha zor, daha yavaş ve daha pahalıydı
- ChatGPT gibi bir ürünün başarılı olup olmayacağı bile belirsizdi; OpenAI bile çıkış konusunda tereddüt etmişti (ilk başta sadece bir araştırma önizlemesi olarak yayımlandı)
- Bu şirketler, belirsiz bir geleceğe rağmen güçlü bir inançla yapay zeka yeniliğini öne taşıyan öncülerdi
- Buna karşılık, DeepSeek ve xAI bu devlerin omuzlarında yükseldi
- Mevcut araştırmaların deneme-yanılma sürecinden kaçınabildiler ve doğrulanmış yaklaşımlarla hızla ilerleyebildiler
- Üstelik yapay zeka paradigması sonradan eğitim (post-training) dönemine kaydığı için daha düşük maliyetle daha hızlı sonuç alabildiler
- İlk yapay zeka öncülerinin üstlendiği büyük peşin yatırımları ve belirsizlikleri aynı ölçüde yaşamak zorunda kalmadılar
- Zaferi kabul et, ama süreci de unutma
- xAI ve DeepSeek'in başarısını küçümsemek gerekmiyor; ancak yapay zekanın buraya nasıl geldiğini de unutmamak gerekiyor
- OpenAI, DeepMind ve Anthropic gibi ilk öncü oyuncular olmasaydı bugünkü sonuçlar da mümkün olmazdı
- Yani xAI ve DeepSeek'in başarısını "şanslıydılar" diye değil, "doğru zamanda ellerinden gelenin en iyisini yaptılar" diye okumak daha doğru
VI. Sonradan eğitim (post-training) bugün ucuz olabilir, ama yakında pahalılaşacak
- Grok 3 ve xAI'nin gösterdiği temel ders
- Şu anda sonradan eğitim (post-training) görece ucuz; ancak yakında ön eğitim (pre-training) kadar büyük yatırım maliyetleri gerektirecek
- Şirketler sonradan eğitimi büyük ölçekte genişletmenin yolunu bulduğu anda, rekabette ayakta kalmak için para ve hesaplama kaynağı vazgeçilmez olacak
- Yapay zeka şirketleri şimdiden yüz binlerce GPU biriktiriyor ve dev kümeler kuruyor
- "GPU'lar önemli değil" iddiasının tersine, GPU edinme yarışı yapay zeka rekabetinin temel unsuru olacak
- Bu nedenle Dario Amodei (OpenAI kurucu ortaklarından) gibi isimler ihracat kontrollerinin (export controls) önemini vurguluyor
- xAI'nin güçlü konumlanması
- xAI şu anda yalnızca DeepSeek'e karşı değil, OpenAI ve Anthropic'e karşı da daha avantajlı bir pozisyona sahip
- Sebebi: 100K H100 GPU kümesine sahip ve bunu yakında 200K'ya çıkaracak olması
- Bu, yeni nesil yapay zeka geliştirme yarışında çok büyük bir avantaj sağlıyor
- Meta da aynı stratejiyi izliyor ve 100K+ H100 kümesinde Llama 4'ü eğitiyor
- DeepSeek'in sınırları ve ihtimalleri
- DeepSeek'in güçlü mühendisliği artık tek başına rekabet etmeye yetmeyebilir
- Teknik yığın ne kadar optimize edilirse edilsin, 150K GPU'luk farkı kapatmak mümkün değil
- Mümkün olsaydı DeepSeek de xAI gibi ölçeklemeyi seçerdi; ancak ABD'nin ihracat kısıtlamaları büyümesini sınırlıyor
- Yine de Huawei ile iş birliği yaparak bu sorunu aşma ihtimali bulunuyor
- xAI'nin ek avantajları
- OpenAI ve Anthropic bile GPU kümesi erişimi açısından xAI kadar güvenli bir konumda değil
- Nvidia'nın desteği sayesinde xAI'ye yeni nesil yapay zeka donanımı öncelikli veriliyor
- Elon Musk'ın ağı ve Nvidia'nın olumlu yaklaşımı sayesinde xAI'nin gelecekteki yapay zeka yarışında benzersiz bir üstünlük kurma ihtimali yüksek
VII. Bir yıl sonra kim önde olacak?
- Mevcut güçlü oyuncuların avantajı
- Tüm bunlara rağmen OpenAI, Google DeepMind ve Anthropic hâlâ küçük de olsa bir öncülük avantajı taşıyor
- OpenAI: Yakında GPT-4.5/GPT-5'i yayımlamayı planlıyor; ardından
o4 modeli de geliştiriliyor
- Anthropic: Claude 4 yolda
- Google DeepMind: Gemini 2.0'ın "Thinking-model" sürümünü geliştirirken, maliyeti azaltma ve bağlam penceresini genişletme üzerine çalışıyor
- Belirsiz gelecek
- 2024'te Google'ın yapay zeka yarışında öne geçeceği tahmin ediliyordu; ama artık bundan emin olmak zor
- Yapay zeka yarışı hiç olmadığı kadar sert ve AGI (yapay genel zeka) yarışında net bir kazanan yok
- Yeni paradigma sonradan gelenlerin lehine işliyor ve hızlı uyum becerisi gerektiriyor
- Google'ın bu çevikliğe sahip olup olmadığı belirsiz
- Ya da Google sadece kendi başarılarını etkili biçimde anlatamıyor olabilir
- Sonuç: Sonunda kazanan ölçekleme oluyor
- Bu yazının amacı yapay zeka yarışının kazananını tahmin etmek değil
- Asıl ders, ölçeklemenin sonunda insan yaratıcılığını (ingenuity) bastırdığı gerçeği
- Bunu söylemek üzücü olabilir, ama bazı şeyler bizim kontrolümüzün ötesinde
- Grok 3'ün başarısı, yapay zeka ilerlemesini bir kez daha "daha akıllı algoritmaların" değil, "daha büyük hesaplama gücünün" yönlendirdiğini hatırlatıyor
3 yorum
"OpenAI, haftalık 300 milyon kullanıcıya sahip ChatGPT"
Orijinal metinde 300M yazıyor; lütfen 300 milyon olarak düzeltin.
ortogonal ama ortonormal değil.
Hacker News görüşleri
"co-state-of-the-art" bir model üretmek, ölçekleme yasalarının zaferi değil
Deepseek, SOTA sonuçlara ulaşmak için 17 ay harcadı ve xAI'nin modeli Deepseek R1'in çok ötesine geçmiyor
GPQA Diamond'da akıl yürütmesiz bir modelin %75 almış olmasına şüpheyle yaklaşılıyor
Son değişimlerden garip sonuçlar çıkarılıyor
Eğer Grok, diğer önde gelen modellerle benzer düzeyde zekâya sahipse, hangi işletmenin Grok'a geçeceği sorgulanıyor
Daha fazla hesaplama gücü kullanmak milyarlarca dolarlık maliyet doğuruyorsa, "acı ders" artık donanımla değil parayla ilgili olabilir
Yazının "acı ders" hakkındaki iddiası mantık hatalarına dayanıyor
Yetenek kazanımının nasıl evrileceği ilgi çekici bulunuyor
Bir başka yapay zeka abartısı blog yazısı