Andrej Karpathy'nin Anlattığı Kod Ajanları, AutoResearch ve Yapay Zekanın Loopy Çağı [YouTube]

(youtube.com)

29 puan yazan GN⁺ 2026-03-21 | 1 yorum | WhatsApp'ta paylaş

Yapay zeka kod ajanlarının ortaya çıkışıyla birlikte yazılım geliştirme biçimi temelden değişti ve 2024 Aralık itibarıyla doğrudan kod yazma oranının %80’den neredeyse %0’a düştüğü hissedilen bir kırılma yaşandı
Bireylerin birden fazla ajanı paralel olarak çalıştırıp işleri özellik bazında dağıtması yeni geliştirme paradigması hâline geliyor; temel darboğaz ise model yeteneği değil, kullanıcının ustalığı
AutoResearch, araştırmacıyı döngüden çıkarıp ajanın deneyleri otonom biçimde yinelemesi için tasarlanmış bir çerçeve; deneyimli araştırmacıların bile kaçırdığı hiperparametre optimizasyonlarını buldu
Güncel yapay zeka modelleri RL ile doğrulanabilir alanlarda (kod, matematik) mükemmel olsa da espri gibi doğrulanamayan alanlarda durağan; yani genel zekâdan çok inişli çıkışlı uzmanlaşma sergiliyor
Büyük ölçekli dönüşüm önce dijital bilgi işleme alanında yaşanacak; fiziksel dünya (robotik) ise sonra gelecek ama nihayetinde daha büyük bir pazar fırsatı sunacak

Kod ajanları çağının gelişi ve çalışma biçiminin dönüşümü

2024 Aralık itibarıyla yazılım geliştirmenin temel çalışma biçimi tamamen değişti; doğrudan kod yazma oranı %80’den %20’ye, ardından da neredeyse %0’a kadar geriledi
Önceden darboğaz yazma hızıydı; ajanların gelişiyle birlikte temel yetkinlik, niyeti ajana doğru aktarabilme becerisine dönüştü
Çoğu insan bu değişimin zaten yaşanmış olduğunu ve ne kadar dramatik olduğunu henüz fark etmiş değil
Claude Code ve Codex gibi ajanları aynı anda birden fazla çalıştırmak ve bunları etkili biçimde yönetmek yeni mesele hâline geldi

Paralel ajan kullanımı ve ustalığın önemi

Peter Steinberger örneği: Birden çok Codex ajanı açıp 10’dan fazla repoyu aynı anda yürütüyor, her ajana yaklaşık 20 dakikalık işler veriyor
İş birimi artık “bir satır kod” ya da “bir fonksiyon” değil, “yeni bir özellik” düzeyine çıktı; bir ajana bir özellik, diğerine çakışmayan başka bir özellik veriliyor
- Bir ajan araştırma yapıyor, bir diğeri kod yazıyor, bir başkası da uygulama planı çıkarıyor
Ajanlar iyi çalışmadığında bunun çoğu zaman “model yeteneği eksikliği” değil, kullanıcı ustalığı eksikliği olduğu hissediliyor
- Ajanlar için hazırlanmış MD dosyalarındaki yönergelerin yetersizliği, bellek araçlarının zayıf kurulumu gibi nedenler etkili
Token işleme kapasitesini tam kullanamamak artık tersine huzursuzluk yaratıyor; abonelik kotası artıyorsa bu, kapasitenin sonuna kadar kullanılmadığı anlamına geliyor
Geçmişte doktora döneminde GPU FLOP kapasitesini sonuna kadar kullanamamanın yarattığı gerginlik, bugün token akışını yönetme becerisine dönüşmüş durumda

OpenClaw ve ajan kişiliğinin önemi

OpenClaw, mevcut ajanlardan farklı olarak kalıcılığı (persistence) başka bir seviyeye taşıyan bir katman; kullanıcı anlık olarak başında durmasa da sandbox içinde otonom çalışabiliyor
Bellek sistemi mevcut ajanlara kıyasla çok daha rafine; çoğu ajan bağlam dolduğunda sadece basit sıkıştırma yaparken burada daha gelişmiş bir yaklaşım var
Ajanın kişiliği (personality) çok önemli bir unsur
- OpenClaw: Gerçek bir ekip arkadaşı gibi, birlikte heyecanlanıyormuş hissi veriyor
- Codex: Çok kuru ve sade; kullanıcının ne yaptığıyla ilgilenmiyormuş gibi bir tarzı var
- Claude: Övgü tonunu çok iyi ayarlıyor; sıradan fikirlere ölçülü, iyi fikirlere daha büyük tepki vererek kullanıcının övgü almak istemesine yol açıyor
Peter Steinberger aynı anda beş yönde yenilik yapıyor: kişilik tasarımı, bellek sistemi, tek bir WhatsApp portalında birleştirme gibi

Ev cini Dobby: ev otomasyonu örneği

Ocakta bir “Claw çılgınlığı” dönemi yaşayıp evi yöneten bir Claw yaptı ve buna “Dobby, ev cini Claw” adını verdi
Ajan, yerel ağda akıllı ev alt sistemlerini otomatik olarak keşfetti
- Sonos sistemini buldu → API endpoint’lerini tersine mühendislikle çözdü → üç prompt ile çalışma odasında müzik çalmayı başardı
- Tüm aydınlatma sistemini kavrayıp bir dashboard bile kurdu
“Uyku zamanı” dendiğinde evdeki tüm ışıkları kapatan doğal dil kontrolü hayata geçirildi
Dış kameradaki değişikliği algılama → Qwen görsel modeli ile analiz → WhatsApp üzerinden “FedEx kamyonu geldi” gibi bildirim gönderme akışı kuruldu
Daha önce akıllı evi yönetmek için 6 uygulama kullanılırken, Dobby her şeyi doğal dille kontrol ettiği için tek tek uygulamalar gereksiz hâle geldi

Uygulamaların sonu ve ajan öncelikli dünya

Akıllı ev cihazlarına özel uygulamalar anlamsız; bunun yerine yalnızca API sunulmalı ve ajanlar bunları doğrudan çağırmalı
LLM’ler araçları çalıştırıp doğru aracı seçerek karmaşık görevleri yerine getirebildiği için, özel yapım uygulamalar gereğinden fazla üretiliyor
Koşu bandı uygulaması örneği: web arayüzüne giriş ve karmaşık akışlar yerine, ajanın API’yi doğrudan çağırdığı agent-first yapıya geçmek gerekiyor
Müşteri artık insan değil, insanın yerine hareket eden ajan olduğu için tüm sektörün buna göre yeniden düzenlenmesi gerekiyor
Bugün vibe coding gerekebiliyor ama 1-3 yıl içinde açık kaynak modeller gibi araçlar teknik olmayan niyetleri de kolayca dönüştürebileceği için teknik engellerin kalkması bekleniyor

AutoResearch: araştırmacıyı döngüden çıkarma

AutoResearch’ün temel motivasyonu şu: token kapasitesini en üst düzeye çıkarmak istiyorsanız kendisiniz darboğazdan çıkmalısınız
Hedef, kullanıcının müdahalesi olmadan ajanın daha uzun süre otonom çalışmasını sağlamak için soyutlamaları yeniden düzenlemek
GPT-2 model eğitimi, özyineli kendini iyileştirme fikrini keşfetmek için küçük ölçekli bir araç olarak kullanıldı
- Aslında tüm Frontier Labs’ın yaptığı şey de özünde özyineli biçimde kendini geliştirmeye çalışmak
Gerçek sonuç: 20 yıllık deneyime sahip bir araştırmacının yeterince ayarladığını düşündüğü bir modeli AutoResearch ile gece boyunca çalıştırınca, value embedding için weight decay ve atom beta ince ayarları gibi kaçırılmış optimizasyonlar bulundu
- Hiperparametreler birlikte etkileştiği için biri değiştiğinde diğerlerinin de değişmesi gerekiyor; insan darboğaz olduğunda bu arama sınırlı kalıyor
İlk uyarı: Bu yaklaşım, yalnızca değerlendirmesi kolay nesnel metriklere sahip işlerde iyi çalışıyor (CUDA kernel optimizasyonu, kod verimliliği artırma gibi)
İkinci uyarı: Güncel modellerin kenarları (edge) hâlâ pürüzlü olduğu için fazla ileri gidildiğinde pratiklik düşebiliyor

Program MD’nin meta optimizasyonu

Tüm araştırma organizasyonunu Markdown dosyalarıyla (program MD) tanımlama fikri: tüm rollerin ve bağlantıların açıklanması
Birden fazla araştırma organizasyonu kodla tanımlanıp farklı özelliklerle donatılabiliyor
- Günlük ayakta toplantı sıklığını ayarlamak, risk alma düzeyini farklılaştırmak gibi
Bir kez kod hâline geldiğinde, kodun kendisinin optimizasyonunu (meta optimizasyon) düşünmek mümkün oluyor
- Farklı program MD’leri yazdırıp aynı donanımda hangisinin en büyük iyileşmeyi sağladığını ölçmek → bu veriyi modele verip daha iyi program MD yazmasını sağlamak
Yapı, soğanın katmanları gibi adım adım biriken soyutlamalardan oluşuyor: LLM hizalama → ajan → çoklu ajan → yönergeler → yönergelerin optimizasyonu

Yapay zeka modellerinin inişli çıkışlı zekâsı

Güncel modeller hem çok parlak bir doktora seviyesi sergiliyor hem de aynı anda 10 yaşındaki bir çocuk gibi hatalar yapabiliyor
RL (pekiştirmeli öğrenme) ile doğrulanabilir alanlarda (kod doğruluğu, unit test geçme durumu) hızla gelişirken, espri gibi doğrulanamayan alanlarda 3-5 yıl öncesi seviyesinde takılıyor
- Örneğin en gelişmiş ChatGPT’ye espri istendiğinde hâlâ “Bilim insanları neden atomlara güvenmez? Çünkü her şeyi onlar oluşturur” gibi bayat şakalar üretebiliyor
Kod alanındaki zekâ, espri gibi başka alanlara genellenmiyor
- Bazı araştırma gruplarının “doğrulanabilir alanlarda daha zeki olursa her şeyde iyi olur” varsayımı pratikte doğrulanmıyor
Modeller, eğitim hedefinin yörüngesi üzerinde ışık hızında gelişirken onun dışında durağan kalan yapısal bir özellik gösteriyor

Zekânın türlere ayrılması ihtiyacı

Günümüz laboratuvarları, tüm alanların zekâsını tek bir parametre kümesine doldurmaya çalışan tek model, tek kültürlü (monoculture) bir eğilim taşıyor
Hayvanlar âlemindeki gibi, doğanın nişlerine uygun çeşitli uzmanlaşmış modeller gerekiyor
- Bilişsel çekirdeği koruyup belli alanlarda uzmanlaşan daha küçük ve verimli modeller
- Örneğin Lean tabanlı, matematiğe özel modeller gibi alan hedefli yayınlar
Bu türleşmenin henüz yeterince yaşanmamasının nedenleri
- Beyni işlev kaybı olmadan ince ayarlama bilimi henüz tam gelişmiş değil
- Bağlam penceresini manipüle etmek ucuzken ağırlıkları doğrudan değiştirmek tüm modeli kökten değiştirme riski taşıyor
- Laboratuvarlar şu anda toplam kullanılabilirlik alanını kovalamakta, bu yüzden uzmanlaşmadan çok genelliğe odaklanıyor
Hesaplama altyapısındaki arz kıtlığı, kısa vadede bu türleşmeyi hızlandırabilir

Açık kaynak ile Frontier Labs arasındaki denge

Kapalı modeller önde olsa da, açık kaynak modellerin geride kalma farkı 18 aydan 6-8 aya doğru kapanıyor
Tıpkı Linux’un işletim sistemlerindeki rolü gibi, sektörün ortakça kullanabileceği güvenli ve açık bir platforma ihtiyaç var
En büyük fark, LLM geliştirmek için çok büyük sermaye harcaması (CapEx) gerekmesi
Tüketiciye yönelik kullanım senaryolarının çoğu açık kaynak modellerle yeterince karşılanabilir; önümüzdeki birkaç yıl içinde yerelde çalıştırma da mümkün olabilir
Frontier düzeyi zekâ, Nobel ödülü seviyesinde işler ya da Linux’un C’den Rust’a geçişi gibi büyük projeler için gerekli ve bu alanı kapalı modeller üstleniyor
Mevcut denge tesadüfen oldukça iyi bir düzen gibi görünse de, zekânın az sayıdaki Frontier Labs’ta toplanması bir merkeziyetçilik riski oluşturuyor
- Daha fazla laboratuvarın frontier seviyeye katılması gerekiyor; ML ensemble’larında olduğu gibi farklı bakış açılarını birleştiren topluluklar en iyi sonuç verir

Açık kaynak araştırma iş birliği: AutoResearch’ün dağıtık genişlemesi

AutoResearch’ü internet üzerindeki güvenilmeyen işçi havuzuna genişletme fikri
- Blockchain’e benzer bir yapı: blok yerine commit, iş ispatı (Proof of Work) ise çok sayıda deney yapıp çalışan bir commit bulmak
- Aday çözüm üretmek pahalı ama doğrulamak ucuz olan asimetrik bir yapı (SETI@home, Folding@home benzeri)
Şirketlerin ya da bireylerin ilgilendikleri AutoResearch hattına hesaplama gücü bağışlaması modeli
- Örneğin kanser araştırmasına yönelik AutoResearch’e hesaplama desteği verip bunun araştırmacılara geri dönmesi
Frontier Labs’ın güvenilir hesaplama kapasitesi sınırlı ama dünyadaki güvenilmeyen hesaplama kapasitesi çok daha büyük
Güvenlik sorunu: rastgele kod çalıştırmanın riskli olması; ancak uygun doğrulama sistemleriyle buna karşılık verilebilir

İş gücü piyasası ve yapay zekanın etkisi

ABD Çalışma İstatistikleri Bürosu (BLS) verileri kullanılarak çeşitli mesleklerin önümüzdeki 10 yıldaki görünümü analiz ediliyor
Yapay zeka bugün dijital dünyayı manipüle eden hayalet gibi bir varlık; fiziksel bir vücuda sahip değil
- Bit çevirmek ve dijital bilgiyi kopyala-yapıştır yapmak, atomları manipüle etmekten bir milyon kat daha hızlı
Önce dijital bilgi işleme meslekleri büyük dönüşüm geçirecek, fiziksel dünya meslekleri ise daha sonra etkilenecek
Yazılım mühendisliği konusunda temkinli bir iyimserlik var
- Yazılım bugüne kadar çok pahalı ve yetersizdi; maliyet düştüğünde Jevons paradoksu nedeniyle talep artabilir
- ATM ve banka gişe görevlileri örneği: ATM’ler şube maliyetini düşürünce daha fazla şube açıldı ve gişe görevlisi sayısı da arttı
Kod artık geçici (ephemeral) bir şey hâline geliyor; kullanıcılar eksik abonelik yazılımlarına bağlı kalmak yerine onu düzenleyip değiştirebilecek
Frontier Labs araştırmacıları özünde kendilerini otomatikleştiren işler yapıyor; bu da doğal olarak bir kaygı yaratıyor

Dijital-fiziksel arayüz ve gelecekteki fırsatlar

Beklenen sıra şu: ① dijital alanda büyük değişim → ② dijital-fiziksel arayüz → ③ fiziksel dünya
Fiziksel dünyanın sensörleri (kamera vb.) dijital zekâya veri sağlar ve sonuçlar tekrar fiziksel dünyaya uygulanır
- Periodic (malzeme bilimi AutoResearch) örneğinde, zekânın sensörü pahalı laboratuvar ekipmanı
- Biyoloji alanında sensörler, basit video kameranın ötesinde çok daha karmaşık cihazlar
Henüz yeterince gelişmiş bilgi piyasaları (information markets) yok
- Ajanların bahis piyasaları, borsa gibi alanlarda otonom çalışıp fiziksel dünyadan veri satın alabileceği yapılar eksik
- Örneğin İran’da bir olay olduğunda sahadan fotoğraf/video çekene 10 dolar ödeyen süreçler henüz kurulmuş değil
'Daemon' romanına atıfla, gelecekte insanların zekânın sensörü ve aktüatörü hâline gelmesi mümkün

Robotik hakkındaki görüşler

Otonom sürüş deneyiminden çıkarılan ders: 10 yıl önce pek çok girişim ortaya çıktı ama çoğu uzun vadede başarısız oldu
Robotik sermaye yoğun, zaman alan, dağınık ve karmaşık bir alan
Dijital alandaki değişimden daha sonra gelmesi bekleniyor ama toplam adreslenebilir pazar (TAM) dijitalden çok daha büyük olabilir
Atomlarla uğraşmak bitlerden bir milyon kat daha zor, ama buna karşılık pazar fırsatı da daha büyük

Frontier Labs içi ve dışı: bağımsız araştırmacının ikilemi

Frontier Labs içinde olduğunuzda karar odasında bulunabilirsiniz ama söyleyemeyeceğiniz şeyler ve söylemeniz gerekenler nedeniyle baskı oluşur
Dışarıda olduğunuzda bağımsızsınızdır ama Labs şeffaf olmadığı için muhakeme sürüklenmeye başlar
İdeal düzen: Frontier Labs içinde zaman geçirip gerçeği yakından görmek, sonra dışarıda ekosistem düzeyinde etki yaratmak arasında gidip gelmek
ML ensemble’larının tekil modellerden daha iyi sonuç vermesi gibi, en zor sorunları düşünen insanların da bir araya gelmiş bir topluluğuna ihtiyaç var
Kararların iki-üç kişi tarafından kapalı kapılar ardında verilmesi iyi bir gelecek değil; daha fazla laboratuvar olmalı

microGPT ve eğitimin geleceği

microGPT: LLM eğitiminin özünü yaklaşık 200 satırlık Python koduna sıkıştıran bir proje
- Veri kümesi (metin), sinir ağı mimarisi (~50 satır), autograd motoru (~100 satır), optimizer (~10 satır) ve eğitim döngüsünden oluşuyor
- Tüm karmaşıklık verimlilikten kaynaklanıyor; algoritmanın kendisi ise çok basit
Eğitim yaklaşımı değişiyor: eskiden rehberler ve dersler doğrudan insanlara açıklama yapıyordu, artık esas mesele ajana açıklama yapmak
- 200 satırlık kodu ajana anlattığınızda, ajan bunu her kullanıcının seviyesine göre sonsuz sabırla yeniden açıklayabilir
“Skill” kavramı: ajana nasıl öğreteceğini anlatan bir müfredatı Markdown olarak yazmak
- Kod kütüphanesi dokümantasyonunun da insanlara yönelik HTML yerine, ajanların sindirebileceği Markdown biçimine dönüşmesi gerekiyor
İnsan eğitmenin rolü: ajanın henüz yapamadığı temel parçaları tasarlamak ve müfredatın kritik noktalarını enjekte etmek
- Ajanın yapabildiği şeyler yakında insanlardan daha iyi yapılabilir hâle geleceği için, zamanın nereye harcanacağına stratejik karar vermek gerekecek

1 yorum

jokerized 2026-03-22

Şaka yapmak gerçekten büyük bir engel. Mizah anlayışı olan bir yapay zeka yapılırsa asıl yenilik o olur. Şu an bir şaka yapmasını istediğinde gerçekten aşırı derecede komik olmamasından bunu anlayabiliyorsun.