- 3 gün önce tanıtılan Autoresearch ajanı, depth=12 modelini baz alarak yaklaşık 2 gün boyunca otonom şekilde yaklaşık 700 değişiklik denedi ve doğrulama kaybını (validation loss) iyileştiren yaklaşık 20 geçerli değişiklik buldu
- Bulunan değişikliklerin tamamı eklemeli (additive) nitelikteydi ve daha büyük depth=24 modele de aynen aktarıldı; böylece lider tablosundaki "Time to GPT-2" süresi 2,02 saatten 1,80 saate inerek yaklaşık %11 kısaldı
- Daha önce fikir üretme → uygulama → doğrulama kaybını kontrol etme → makalelere bakma gibi tekrarlayan manuel optimizasyon süreci 20 yıldır sürdürülüyordu
- Bu kez ajan, deney sonuçları dizisini analiz edip buna dayanarak bir sonraki deneyi otonom olarak planlayan tüm iş akışını uçtan uca yürüttü
- Şu anda "round 1" sonuçlarının commit işlemi tamamlandı ve "round 2" başlatılacak; ayrıca paralel işleme için birden çok ajan arasında işbirliği (collaboration) yöntemi de birlikte araştırılıyor (AgentHub)
- Henüz çığır açan araştırma (ground-breaking research) düzeyinde olmasa da, manuel ayarlamada kaçırılan gerçek iyileştirmeler birikerek anlamlı performans artışı sağladı
- Büyük ölçekli uygulamada tek bir
train.py ayarlamaktan çok daha karmaşık olsa da, özünde bir mühendislik problemi olduğu için çözülebilir
- Ajan sürüsü (agent swarm) ile küçük modellerden başlayarak ayarlama yapmak ve umut vadeden fikirleri giderek daha büyük ölçeklere taşımak, tüm LLM frontier laboratuvarlarının kaçınılmaz olarak benimseyeceği bir yön olacak
- Verimli biçimde değerlendirilebilen (veya proxy metriği bulunan) tüm metrikler, bu otomatik optimizasyonun hedefi olabilir
3 yorum
Autoresearch ve AgentHub konseptlerine kısaca göz attım
İkisini birleştirince ortaya gerçek anlamda akademi ve araştırma enstitüsü çıkmaz mı diye düşündüm.
Araştırma enstitüleri sonuçlarını akademik konferanslara sunuyor, geri bildirimi yansıtıyor ve yeni araştırmalar yapıyor; bu da bana adeta genişletilmiş bir reinforcement learning biçimi gibi göründü.
RL açıklanabilir değil ama bu şekilde genişletildiğinde her şeyin açıklanabilir hâle gelmesi gerçekten devrim niteliğinde hissettirdi.
Karpathy'nin Tesla FSD tasarımına katkısı olduğu söyleniyor; belki de oradan devam eden kavramları araştırma tarafına taşımıştır diye düşündüm.
Her hâlükârda, izlemeye devam ettiğim insanlardan biri gibi görünüyor.
Evet, bu yüzden bir bakıma AGI gelmeden önceki son engel bu olabilir diye düşünüyorum.
Bu adam sanki bambaşka bir hayat yaşıyor gibi, haha