- Son dönemde yapay zeka alanındaki ilerlemenin temelinde yeni fikirlerden çok yeni veri kümelerinin devreye girmesi yer alıyor
- Büyük atılımların çoğu, zaten var olan tekniklerin yeni veri kaynaklarına uygulanmasıyla ortaya çıktı
- Yapay zeka tekniklerindeki yenilikten çok veri değişimi, model performansı üzerinde daha büyük etki yaratıyor
- Gelecekteki paradigma değişimlerinin de YouTube, robotlar gibi yeni veri kaynaklarının kullanılmasıyla mümkün olması bekleniyor
- Araştırmacıların çoğu yeni metodolojilere odaklansa da gerçekte ilerlemenin merkezinde veri bulunuyor
Yapay zeka gelişiminin mevcut durumu ve örüntüsü
- Yapay zeka son 15 yılda, özellikle de son 5 yılda sıçramalı bir ilerleme kaydetti
- Bazı araştırmacılar, yapay zekanın belirli görevleri yerine getirme becerisinde 'yapay zeka için Moore yasası' benzeri üstel bir gelişim gösterdiğini savunuyor
- Ancak gerçekte büyük atılımlar sık yaşanmıyor; yapı daha çok yavaş ama istikrarlı ilerleme şeklinde işliyor
Yenilik nereden geliyor
- Pek çok kişi, yapay zekadaki ilerlemenin MIT, Stanford, Google gibi akademi ve sanayi çevrelerinin fikirlerinden doğduğunu düşünüyor
- Araştırmalar sayesinde model eğitim maliyetini azaltan ve verimliliği artıran sistem yenilikleri kuşkusuz sürüyor
- 2022'de Stanford'un geliştirdiği FlashAttention, bellek kullanımını optimize etti
- 2023'te Google'ın speculative decoding yaklaşımı çıkarım hızını artırdı
- 2024'te Muon projesi yeni bir optimizer yaklaşımı sundu
- 2025'te DeepSeek-R1, açık kaynak olarak önde gelen yapay zeka laboratuvarları düzeyinde bir model sundu
- Araştırmacılar arXiv, konferanslar ve sosyal medya üzerinden sonuçlarını hızla ve açık biçimde paylaşırken, küresel ölçekte dağınık bir bilimsel deney düzeni de aktif biçimde işlemeyi sürdürüyor
Neden yapay zeka inovasyonunun yavaşladığı hissediliyor
- Son dönemde Grok 3, GPT-4.5 gibi en yeni modellerdeki performans artışının boyutu küçüldü
- Matematik olimpiyatları gibi gerçek dünya değerlendirmelerinde düşük skorlar alınması nedeniyle abartılı duyurular yapıldığı eleştirileri de var
- Büyük paradigma değişimleri (deep learning, transformers, RLHF, Reasoning) 10 yıllık ölçeklerde nadiren ortaya çıkıyor
Büyük atılımların ortak noktası: yeni veri kümeleri
- 4 ana atılımın tümü, yeni veri kaynaklarının ilk kez büyük ölçekte kullanılmaya başlanmasıyla çakışıyor
- AlexNet: ImageNet (etiketlenmiş büyük ölçekli görsel verisi)
- Transformers: web'in tamamındaki metin verisi (Internet)
- RLHF: insan geri bildirimiyle seçilmiş 'iyi metin' verisi
- Reasoning: hesap makinesi, derleyici gibi harici doğrulama araçlarının çıktıları
- Her veri kümesi ilk kez büyük ölçekte devreye alındıktan sonra, kalan veriyi elde etme yarışı ve onu daha verimli kullanma tekniklerinin geliştirilmesi devam ediyor
Yeni fikirler ile verinin rolü
- Belirli bir model mimarisi olmasa bile, aynı veri sağlandığında benzer seviyede modeller geliştirilebilir
- Gerçekte, teknik yeniliklerden daha fazla etkiyi eğitilen veri kümesinin değişmesi yaratıyor
- AlexNet yerine başka bir yapı ortaya çıksa da, ilerlemeyi mümkün kılan şey ImageNet'in varlığıydı
- Transformer olmasa bile LSTM, SSM gibi yaklaşımlar aynı veriyle benzer performans gösterebilir
- Veri kümesi, öğrenme sonucunun üst sınırını belirler; bunu yalnızca model ya da algoritma iyileştirmeleriyle aşmak mümkün değildir
- The Bitter Lesson'ın vurguladığı gibi, yeni yöntemlerden ziyade gerçekten önemli olan şey sonunda veridir
Bir sonraki yapay zeka paradigma değişiminin adayları
- Yapay zekadaki bir sonraki büyük sıçramanın, yeni bir network ya da RL yöntemiyle değil, bugüne kadar kullanılmamış yeni veri kaynaklarının devreye girmesiyle yaşanma olasılığı daha yüksek
- Yani paradigma değişiminin, yeni veri kümelerinin büyük ölçekte toplanmasıyla ortaya çıkması daha muhtemel
- En çok dikkat çeken aday: YouTube gibi video verileri
- YouTube'a her dakika 500 saatlik video yükleniyor
- Metinden onlarca kat daha fazla bilgi barındırıyor; dilsel nüansların yanı sıra fiziksel ve kültürel bağlamın da öğrenilmesini sağlayabilir
- Google gibi büyük teknoloji şirketlerinin yakında bu veri kümesini eğitmek için ciddi biçimde devreye girmesi olası görünüyor
- Bir diğer olasılık: robotlar (embodied system) aracılığıyla fiziksel dünya verisi toplamak
- Kamera ve sensör verilerini GPU üzerinde büyük ölçekte işleyip eğitebilecek altyapı olgunlaştığında, bu veri de yapay zeka yeniliğinin kaynağı olma ihtimali taşıyor
- Metin verisi sınırına yaklaşırken, video ve robotik gibi yeni veri kaynaklarının yapay zekanın geleceğini belirlemesi olası görünüyor
Sonuç
- Yapay zekadaki bir sonraki ilerleme, yeni fikirlerden ya da algoritmalardan değil, yeni veri kaynaklarından gelecek
- Araştırmacıların %95'i yeni metodolojilere odaklansa da gerçek yenilik veri kümelerindeki değişimden doğuyor
- Yapay zekada ilerleme isteniyorsa, yeni fikirlerden çok yeni veri edinimine odaklanmak gerekiyor
1 yorum
Hacker News görüşleri
John Carmack’ın ele alış biçiminin oldukça ilginç olduğundan bahsediliyor
2D video oyunlarını insanüstü düzeyde iyi oynayan bir modeli eğittikten sonra, daha önce hiç görmediği 2D oyunlarda veya yeni bölümlerde iyi performans gösterip gösteremeyeceğini test etme deneyimini paylaşıyor
Modelin daha önce deneyimi olmayan oyunlarda performansının aksine düştüğünü, bunun yapay zeka değil belirli bir göreve yönelik ustalık olduğunu vurguluyor
Süper yapay zeka (ASI) korkusu pompalamak yerine, yeni bir 2D oyunu insandan daha hızlı öğrenen genel zekayı üretmenin çok daha zor olduğunu belirtiyor
John Carmack’ın bu sonuca varırken kullandığı modelin son teknoloji olmadığını, pahalı bir foundational model kullanılmayan eğlence odaklı bir proje olduğunu işaret ediyor
Derinlikli video/görü AI araştırmaları için, oyunlar genelinde uygulanabilir olasılıksal bir latent space’i manipüle eden yaklaşımın daha uygun olacağını söylüyor
veo3’ün prompt kısıtları altında video üretme yeteneğini, AI’ın 2D·3D oyunları genelleyebileceğine örnek olarak açıklıyor
veo3’ün gerçekten de belirli bir oyuna fine-tuning yapılmadan, herhangi bir oyunu makul şekilde oynuyormuş gibi sonuçlar gösterebildiğini iddia ediyor
İnsanların neden özellikle bu şekilde bir tartışma yürüttüğünü anlamanın zor olduğunu söylüyor
Verilen hedefe ulaşmanın açıkça birden fazla yolu varken, John Carmack bir AI uzmanı da değilken neden onun deneyinin standart kabul edildiğini sorguluyor
Model ölçeğinin fazla büyütülmesi nedeniyle overfitting’in ortaya çıkmış olabileceğini düşünüyor
Modele kısıtlar verilirse daha genel heuristics öğrenmeye yönlendirilemeyeceğini merak ediyor
Kısıtsız bir AI’ın sonuçta sadece en iyi speedrun kaydını yeniden oynatacağı, ama yeni içerikle karşılaştığında çeşitli heuristics’in çok daha önemli olduğunu vurguluyor
Bahsedilen konunun Meta-Reinforcement Learning alanına girdiğini belirtiyor
John Carmack’ın bu alanı araştırmasının anlamlı olduğunu, ancak bunun tamamen yeni bir araştırma konusu olmadığını hatırlatıyor
Meta-Reinforcement Learning’e kısa giriş
Modelin ‘gerçek zeka’ya sahip olup olmadığı sorusunun, AGI’yi düşünen akademi açısından ilginç bir konu olduğunu; ancak LLM’leri pratikte faydalı biçimde kullanan çok sayıda kullanıcı için bunun o kadar önemli olmadığını söylüyor
Mevcut ilerlemenin AGI’ye bağlanıp bağlanmadığını umursamadığını belirtiyor
Claude 4’te dursa bile onu faydalı şekilde kullanmayı sürdüreceğini paylaşıyor
AGI tartışmaları yerine, insanların bugünlerde AI’ı gerçekte nasıl kullandığının çok daha ilginç bir konu olduğunu vurguluyor
Şu anda AI’ın ilk dönemlerinde yaşadığımızı güvenle söylüyor
Dil (LLM: GPT-4, Claude) ve görsel (CLIP, DALL·E) olmak üzere iki alanda AI’ın hayranlık uyandıran ilerleme kaydettiğini örneklerle açıklıyor
Bilgisayarların şiir ve kod üretebildiğini, fotoğraf açıklayabildiğini, insan seviyesinde sohbet edebildiğini; ama aslında yalnızca metin ve görüntü olmak üzere iki modality’yi genişlettiğimizi işaret ediyor
İnsan zekasının dokunma, tat, koku, hareket, duygu gibi birçok duyunun zengin şekilde iç içe geçtiği multimodal bir karakter taşıdığını söylüyor
LLM’lerin veya Vision Transformer’ların bu unsurları neredeyse hiç hayata geçiremediğini belirtiyor
Gerçek AI’ın frontier’ının gündelik yaşamın içindeki karmaşık ve zengin duyusal dünya olduğunu vurguluyor
Bunun için yeni sensörlere, token’ların ötesine geçen veri gösterim yöntemlerine ve deneyim temelli öğrenen yeni model eğitim yöntemlerine ihtiyaç olduğunu açıklıyor
Dil ve görsel alanlarının yapay zekanın özüne sadece başlangıç olduğu görüşüne nazikçe itiraz ediyor
Dokunmanın ilginç olduğunu, ancak çevrim içi tüm etkileşimler için ses, video ve dilin yeterli olduğunu savunuyor
İnsan ile hayvan arasındaki belirleyici farkın “geri kalan duyular” değil, ses, görüntü ve dil olduğunu açıklıyor
Gerçek dünyada eylem için dokunma, propriosepsiyon ve koku entegrasyonunun önemli olduğunu; ancak zekanın özünün dil ve görsel olduğu görüşünü savunuyor
Organik uyarlanabilirlik ve belleğin sürekliliğinin en çok ilerlemesi gereken iki alan olduğunu düşünüyor
İnsan beyninin yapısının dinamik olarak değiştiğini, LLM’lerin ise sabit olduğunu ve kendilerine verilen bilgiyi tekrar tekrar eğitmeden “öğrenemediklerini” belirtiyor
Akıllı makineler üretmek için bunların gerçek zamanlı öğrenebilmesi ve bilgiyi hatırlayabilmesi gerektiğini vurguluyor
Bugün elimizdeki AI mimarileriyle dil ve görselin son durak olabileceği yönünde bir bakış sunuyor
Son birkaç yılda LLM’lerle ilgili çok haber çıksa da, onun dışındaki AI alanlarında kayda değer atılımların neredeyse olmadığını söylüyor
Gerçek AI ilerlemesinin geleceğinin, insanlar gibi duyusal açıdan zengin ve fiziksel dünyaya bağlı yaşamın kendisi olduğunu vurguluyor
Dr. Who’da Dalek’in, beyin taşıyan bir makine değil bizzat makinenin kendisi olduğunun söylenmesini örnek vererek, insanın da aslında tüm bedeniyle kendisi olduğunu anlatıyor
“İnanması güç ilerleme” ifadesine karşı, bunun yalnızca 1970’lerde rafa kaldırılmış tekniklerin 1 milyon kat daha güçlü bilgisayarlara uygulanması olduğu şeklinde alaycı bir bakış sunuyor
Bundan sonra performansı üstel biçimde artıracak model yapıları veya hesaplama yöntemlerinde köklü bir yenilik de pek görünmediğini söylüyor
Bilimsel ilerleme ile teknolojik ilerlemenin karıştırılmasından söz ediyor
Bilimde ilerlemenin S-eğrisi gibi hızla yükselip daha sonra azalan getiri bölgesine geçtiğini açıklıyor
İnsanların hızlı optimizasyon dönemi ile yavaşlama dönemini ayırt edemediğini işaret ediyor
Basit abartıları veya beklentileri “teknolojik ilerleme” diye adlandırmanın fazla cömertçe olduğunu söylüyor
İnsanların S-eğrisi ile üstel fonksiyon arasındaki farkı pek bilmediğini ekliyor
Bazı aralıklarda ikisinin neredeyse aynı görünebileceğini açıklıyor
DeepSeek’in neden özellikle anıldığını sorguluyor
Model mimarisiyle ilgili araştırma ve makaleleri okuyan biri olarak, çok sayıda yeni fikrin akmakta olduğunu belirtiyor
Ancak gerçekten ilginç sonuçlar üretenlerin yalnızca bir kısmı olduğunu söylüyor
PyTorch gibi kütüphanelerin deneysel geliştirmeyi engelliyor olabileceğini tahmin ediyor
Temel bileşenleri olduğu gibi alıp kullanmanın fazla sıradanlaşması nedeniyle, insanların her bir bileşen üzerine derin düşünmeyi bıraktığını düşünüyor
Sırf “model card” kutucuklarını işaretlemek için başkalarının tokenizer’ını veya vision model’ini koşulsuz ekleme eğilimine şüpheyle yaklaşıyor
Bunun insan dünyasında da çok yaygın ve doğal bir örüntü olduğunu açıklıyor
Mevcut temel teknolojiler üzerinde entelektüel keşfin ROI’si düştüğünde, insan kaynağının bir süre başka alanlara kaymasının doğal olduğunu söylüyor
Ancak sınırlara gelindiğinde yenilikçi insanların yeniden temel alanlara dönerek büyük ilerlemeler üreteceğini öngörüyor
PyTorch gibi foundational tech’in sonraki neslinin de bu şekilde evrileceğini düşünüyor
Son 2-3 yılda gerçekten çok sayıda insanın bilip günlük kullanımına giren büyük ölçekli mimari iyileştirmelerin nadir olduğunu, ama 3 yıl gibi kısa bir zaman ölçeğinin de çoğu zaman göz ardı edildiğini söylüyor
LLM’lerin dışında da hâlâ birçok ilginç ve faydalı araştırmanın sürdüğünü, kendisi uzman olmasa da son derece çeşitli yeni denemelerin aktığını hissettiğini belirtiyor
PyTorch olmasaydı bile, yeni deneyler yapma niyeti olmayan insanların yine aynı eğilimi göstereceğini söylüyor
İnsan seviyesinde zekayı kopyalayan bir sistem hayal edildiğinde, model farklarının özünün “veri kümesindeki değişim” olarak görülebileceği yönünde bir bakış sunuyor
Gerçekten de insan hafızası, eğitim ve arka planın problem çözme becerisinin büyük bir kısmını oluşturduğunu; dolayısıyla benzerlik bulunduğunu söylüyor
Modelin veriyi aktif olarak elde etme, yani kendi başına veri arayıp öğrenme ihtimalini merak ediyor
İnsan bebeği gibi çeşitli eylemler deneyerek doğrudan deneyimle öğrenen bir yöntemin gerekli olduğunu öne sürüyor
Artık sadece veri yüklemeye dayalı durumdan çıkıp, örneğin 3D nesneler üretebildiğimiz için bunu fizik simülatörleriyle birleştirmenin iyi bir yön olabileceğini söylüyor
Cursor örneği üzerinden, kurallar belirlendikten sonra reasoning model’in bu nedenleri çıkarım yapıp öğrenme verisine yansıtmasının verinin değerini daha da artırabileceğini öneriyor
Kullanıcıların neden belirli eylemleri seçtiğine dönüp bunu eğitim verisine çevirmemenin daha derin içgörü sağlayabileceğini belirtiyor
Simülasyonlar ile robot kolu, otomobil gibi “embodied AI”ın aktif biçimde araştırıldığını hatırlatıyor
Bunun zaten reinforcement learning’e karşılık geldiğini ve gerçekte kolay bir alan olmadığını ekliyor
Yeni fikirlerin çoğunun geçmiş fikirlerden çıktığı görüşünü öne sürüyor
AI’ın eski fikirlere daha hızlı ve yeni bir bakışla yaklaşmayı sağlayan bir araç olduğunu söylüyor
İnovasyonun eski fikirlerdeki boşluklardan veya kesişimlerden doğduğunu, yeniliğin de sonuçta öncekilerin birikimi üzerinde yükseldiğini vurguluyor
AI’ı insanı devlerin omuzlarına doğrudan çıkaran bir asansör gibi görebileceğimizi, ama sonucun yine aracın nasıl kullanıldığına bağlı olduğunu anlatıyor
Eski fikirlere erişim konusunda katılsa da, gerçekten yeni bir bakış üretme konusunda sınırlar olduğunu savunuyor
LLM’lerin veri yorumlamaya bir ölçüde yardımcı olsa da, mevcut araştırmalara kıyasla gerçekten yeni fikirler üretme konusunda hâlâ yetersiz olduğunu söylüyor
LLM kullanımının araştırmanın bazı özel alanlarını hızlandırabileceğini, ama diğer alanlarda sınırları bulunduğunu açıklıyor
Tüm bilgiyi edinmiş bir insanın bile tamamen yeni fikirler üretemediği bir durumu hayal etmenin zor olduğunu örnek vererek söylüyor
Yazının asıl noktasının, AI inovasyonunun kendisinden çok veri miktarı ve veri kalitesindeki artışla ilgili tartışma olduğunu vurguluyor
Temel yenilikler olmuş olsa da, en iyi performans artışı yönteminin hâlâ daha fazla ve daha kaliteli veri olduğunu savunuyor
AI gelişimindeki “daha fazla veri → daha derin model → tekrar” döngüsünü örnek veriyor
Kendi görüşünün bununla nasıl bağlandığını anlayamadığını söylüyor
Tüm yeni fikirlerin yalnızca eskilerden türediği iddiasına, benzen halkasının keşfi hikâyesini örnek vererek karşı çıkıyor
Benzen halkası yapısına ilişkin fikrin, rüyada yılanın kendi kuyruğunu ısırdığı “ouroboros” imgesinden doğması gibi, daha önce var olmayan hayal gücünün zaman zaman yeniliğin kaynağı olabildiğini söylüyor
Son LLM’lerin nihayetinde sayı toplama ve çarpma işi yaptığını söylüyor
Bunu, Babillilerin 4000 yıl önce yaptıkları şeyin devamı gibi aşırı bir ifadeyle anlatıyor
İnsanın da nihayetinde dalgaların etkileşiminden ibaret olduğunu ve bütün anlamın sonradan yüklendiğini söylüyor
Kavram uzayına indeks eklemenin bir yolu olduğu sürece, sürprizleri keşfetmenin mümkün olduğunu; bu yüzden olanakların sınırsız olduğunu belirtiyor
Babillilerin bunu kil tablet üzerinde yaptığını, modern çağda ise atom kalınlığında duvarlara sahip yarı iletkenlerde yapıldığını karşılaştırıyor
Yöntem bakımından arada büyük fark bulunduğunu savunuyor
Mevcut AI eğitiminin gerçekte veri setlerini ezberletme sürecine daha yakın olduğu görüşünü dile getiriyor
Bunun, veri üzerine kendi başına düşünüp sonuç çıkaran ve hatırlayan bir sistem olmadığını vurguluyor
Belirli bir konuda “olgu” bakımından bir doktora sahibinden daha fazlasını bilebileceğini, ama o içeriğin üzerine düşünmede insanın hâlâ üstün olduğunu değerlendiriyor
Bu yüzden doktoralı insanların da ders kitaplarını yakınında tuttuğunu tahmin ediyor
Zaten kaydedilmiş olguların hepsini bir AI modelinin ezberlemesine gerçekten gerek olup olmadığını sorguluyor
Gerçekte sürecin biraz daha karmaşık olduğunu açıklıyor
Bunu, girdilere uygun tepki verebilmek için veriyi heuristics biçiminde içselleştirmek olarak değerlendiriyor
Bu heuristics’in bazen insanları şaşırttığını, bazen de yeni sayılabilecek problem çözme örnekleri gösterebildiğini söylüyor
“Düşünme” kavramının kendisinin çok geniş olması nedeniyle karar vermenin zor olduğunu, ancak AGI’a hâlâ uzak olunduğunu belirtiyor
“Belirli bir konuda bir doktora sahibinden daha fazla olguyu hatırlıyor” açıklamasına karşı, bir laptop’un da daha fazla olguyu saklayabildiğini hatırlatıyor