- Autoresearch sistemi, LLM ajanının
train.py dosyasını tekrar tekrar değiştirerek performansı iyileştirdiği bir kısıtlı optimizasyon döngüsü yapısıdır; hipotez kurulumundan değerlendirmeye kadar otomatik bir çevrim yürütür
- Deneyler, ağ erişimini ve keyfi kod çalıştırmayı engelleyen konteyner tabanlı bir sandbox ortamında yürütüldü
- Ukiyo-eVG veri kümesi kullanılarak yaklaşık 11.000 Japon ahşap baskı görseli ve açıklama bilgileri eğitimde kullanıldı; CLIP tabanlı model ile Mean Rank 34.30, R@5 yaklaşık %53 performansı elde edildi
- Başlıca iyileştirmeler, temperature parametresinin gevşetilmesi (-113 Mean Rank) ve hiperparametre ayarı (-30 Mean Rank) oldu; bir günde yapılan 42 deney içinde 13 commit ile %54 performans artışı kaydedildi
- LLM ajanı, açıkça tanımlanmış arama alanlarında etkili olsa da mimari değişiklik aşamasından sonra kararsızlık büyüdü ve tam otonom araştırmanın sınırları ortaya çıktı
Temel fikir
- Autoresearch, LLM ajanı merkezli bir kısıtlı optimizasyon döngüsü yapısıdır; ajan
train.py dosyasını değiştirerek değerlendirme metriklerini tekrar tekrar iyileştirir
- Ajan,
program.md içindeki talimatları okur ve scratchpad.md dosyasını çalışma notu olarak kullanarak deney sürecini kaydeder
- Arama, birden çok aşama (phase) halinde düzenlenir; başlangıçta hiperparametre ayarıyla başlar, ardından küçük ölçekli mimari değişikliklere ve daha sonra kısıtları en aza indiren serbest aramaya genişler
- Tüm döngü, hipotez kurma → kod değiştirme → eğitim → değerlendirme → commit veya geri alma → yineleme şeklinde döngüsel bir yapı olarak tasarlanmıştır
- Her deney, hızlı yinelemeyi teşvik etmek ve overfitting'i önlemek için yaklaşık 5 dakika içinde tamamlanacak şekilde sınırlandırılır
- Ajan, süre sınırı içinde
train.py dosyasını serbestçe değiştirebilir
-
Sandbox
- Keyfi kod çalıştırma riskini önlemek için eğitim döngüsü bir konteyner ortamında çalıştırılır ve ağ erişimi kapatılır
run.sh tüm deney akışını yönetir ve Claude Code yalnızca train.py ile program.md dosyalarını değiştirebilir
- Python'ın doğrudan çalıştırılması, pip kurulumu, ağ erişimi, git push vb. işlemlerin tümü kısıtlanır
- İlgili uygulama GitHub deposunda açık olarak paylaşılmıştır
Veri kümesi
- Orijinal araştırmada kullanılan tıbbi X-ray veri kümesine erişilemediği için bu kez Ukiyo-eVG veri kümesi kullanıldı
- Yaklaşık 11.000 Japon ahşap baskı görseli ve metin-bounding box açıklamaları içerir
- Bounding box'lar Gaussian heatmap'e dönüştürülerek model girdisine eklendi; bu, orijinal eCLIP makalesindeki uzman attention mekanizmasına benzer bir yaklaşımdır
- Heatmap'ler modelin belirli bölgelere odaklanmasını teşvik eder
Claude Code ile deney kurulumu
- Claude Code, mevcut araştırma kodunu güncel Python ortamına yükseltti ve yeni veri kümesi yükleme ile deney döngüsü iskeletini yazdı
- Çapraz doğrulama bölmeleri, değerlendirme mantığı ve
program.md içindeki başlangıç fikirleri ayarlandı
- Değerlendirme metriği olarak Mean Rank kullanıldı; nihai raporda ise buna ek olarak Recall@K verildi
- Mean Rank sezgisel değerlendirme için kullanıldı, ancak aykırı değerlere daha az duyarlı olan Median Rank'ın daha uygun olabileceği belirtildi
- Model yapılandırması: CLIP backbone olarak ViT-Small(22M) + DistilBERT(66M) + HeatmapProcessor, toplamda yaklaşık 90M parametre
- Eğitim: 800 adım (RTX 4090 bazında yaklaşık 3 dakika/deney)
- Değerlendirme: 1.000 görsellik test setinde Mean Rank ve Recall@K ölçümü
- Başlangıç performansı: Val Mean Rank 344.68, img→txt R@1 %17.2, txt→img R@1 %16.5
Deney sonuçları
- Bir gün boyunca toplam 42 deney yapıldı; bunların 13'ü commit, 29'u geri alma ile sonuçlandı
- Mean Rank, 344.68'den 157.43'e inerek %54 azaldı
- Tüm veri kümesiyle son eğitim yapıldığında test puanları doğrulama puanlarından daha yüksek çıktı
- Bu, kısa 800 adımlık deneylerin underfitting durumunda olduğunu düşündürüyor
- Nihai test performansı: Mean Rank 34.30, img→txt R@5 %53.0, txt→img R@5 %51.4
Başlıca iyileştirme noktaları
-
Temperature clamp düzeltmesi (-113 Mean Rank)
- Kod içindeki öğrenilebilir temperature parametresi 2'ye sabitlenmişti; ajan bunu gevşetince performans önemli ölçüde arttı
- Tüm iyileştirmeler içindeki en büyük tekil etki buydu
-
Optuna++ (-30 Mean Rank)
- Sonraki iyileştirmeler ağırlıklı olarak hiperparametre ayarı üzerinden geldi
- Projeksiyon boyutunun artırılması ve öğrenme oranının yeniden ayarlanmasıyla ek 30 puan iyileşme sağlandı
- İnsanların tekrar tekrar yaptığı sıkıcı işleri ajan daha hızlı ve daha sistematik biçimde gerçekleştirdi
-
Azalan getiri bölgesi
-
- aşamadan (mimari değişiklik) sonra LLM'in hipotez başarı oranı keskin biçimde düştü
- Attention mekanizması değişiklikleri veya cesur fikirler (moonshot) denemeleri çoğunlukla başarısız oldu
- Aramanın son bölümünde daha çok rastgele denemeler görüldü
-
Sandbox'ın önemi
- Claude Code bazen yetkilerini unutup hatalı bash çağrıları yapmaya çalıştı ya da eğitim beklerken döngüyü durdurmak gibi kararsız davranışlar sergiledi
- Tamamen otonom yürütme için hâlâ sınırlar var
Kapanış gözlemleri
- Tüm süreç boyunca ilk %90 sorunsuz ilerledi, son %10 ise çok sayıda müdahale gerektirdi
- LLM ajanı, açıkça tanımlanmış arama alanı içinde ML araştırmasını etkili biçimde yürütebilir
- Autoresearch'ün commit-geri alma döngüsü, yapılandırılmış bir arama stratejisi olarak faydalıdır
- Ancak bilinmeyen alanlara genişlediğinde optimizasyon döngüsü kararsızlaşıyor
- Deney başına yalnızca tek bir değişikliğe izin veren kısıt, büyük ölçekli fikir keşfi için gereğinden fazla katı olmuş olabilir
- Gelecekte planlama aşaması ekleme veya alt ajanlar (subagent) kullanımı iyileştirme yönü olarak öneriliyor
- Deney sona erdikten sonra Claude Code ile işbirliği de günlük rutine dönülerek tamamlandı
Teşekkür
- Ukiyo-eVG veri kümesi: yaklaşık 11 bin Japon ahşap baskı görseli ve metin-bounding box açıklamaları içerir
- Autoresearch: Andrej Karpathy'nin orijinal fikrine dayanır
1 yorum
Hacker News görüşleri
Ana bağlantı yavaşsa archive.is sürümünü denemeniz öneriliyor
Ben sık sık LLM kullanarak mevcut araştırmaları inceliyor ya da bir problemi farklı bir açıdan düşünmeye çalışıyorum
Sonuçların %90'ı benim alanıma uymuyor ama kalan %10 oldukça faydalı oldu
Ama LLM'in önerdiği her şeyi gerçekten deneyen bir ajan bulundurmak fazla maliyetli ($$$)
Öneri listesinde sık sık bakımı yapılmayan niş kütüphaneler oluyor
Öte yandan şirketlerin “uzman danışmanları” da benzer şekilde saçma öneriler sunabiliyor; bu yüzden keşke ajan onlarla benim yerime uğraşsa
Ancak bu yalnızca tek bir test hızlıysa anlamlı. Benim işimde bir test yarım gün sürdüğü için gece boyunca çalıştırmak zor
MCP sunucusu ya da AGENTS.md gibi şeyler kuran insanları görünce, bunun aslında LLM'in vaat edildiği gibi çalışmadığının kanıtı olduğunu düşünüyorum
Belirli bir iş akışına göre iyi ayarlanırsa harika olabilir ama bunun ölçeklenebilir olup olmayacağı şüpheli
Eğitim ve altyapıyı ayakta tutan devasa finansman olmadan sürdürülebilir bir iş modeli olabilir mi?
“Ajan, hiperparametre optimizasyon algoritması gibi davrandı” ifadesi etkileyiciydi
İşin özü,
program.mdadlı tek bir sistem istemi dosyasıyla “train.py iyileştir → eğitimi çalıştır → değerlendir → sonuçları kaydet” döngüsünü tekrar etmekGeri kalanı ise rastgele bir ML modelinden ibaret
Çalışan kodu LLM'e verip hata düzeltme, performans ölçümü ve test kapsamı değerlendirmesini tekrar ettirmek ekibimizin standart yaklaşımı
Her yinelemede farklı bir model kullanmak yeni bir bakış açısı kazandırıyormuş gibi hissettirdiği için hoşuma gitti
“Autoresearch”in neden bu kadar ilgi gördüğünü merak ettim
AI/ML'deki darboğazın hep veri kalitesi ya da hesaplama kaynakları olduğunu düşünürdüm; bunun bunları iyileştirip iyileştirmediğini bilmiyorum
Bayesian optimizasyonu ya da Gaussian Process gibi yaklaşımlar da vardı ama sonunda rastgele arama daha iyi çıktı
LLM'i farklı kılan şey, literatüre bakıp sağduyulu çıkarımlar yapabilmesi
Kusursuz değil ama mevcut yöntemlerden daha iyi olma ihtimali var
Tamamen yeni bir kavram değil ama daha az brute-force olacağı umuluyor
Yani LLM, birilerinin daha önce yaptığı araştırmaları kullanabilir
ML'in özü, aynı girdi X için daha iyi bir fonksiyon eşlemesi bulmak
Bu sadece hesaplama gücünü artırarak çözülecek bir şey değil
Sonuç olarak işe yaradı. LLM hem hata buldu hem de optimizasyon yaptı
Bunlar zaten Claude Code ile de hızlıca yapılabilir
Autoresearch'in asıl değeri muhtemelen mimari keşif tarafında
Bunu keşif amaçlı modelleme için kullanan birinin deneyimi olup olmadığını merak ediyorum
Commit günlüğüne (GitHub bağlantısı) bakınca çoğunun hiperparametre ayarı olduğu görülüyor
O seviyede token maliyetine ($$$) değmez gibi geliyor
LoRa adaptörüyle maliyet geri bildirimi verilerek geliştirilebilir
Orijinal makalede tıbbi X-ray verisi kullanılmış ama erişim olmadığı için bunun yerine Ukiyo-eVG (11 bin Japon ahşap baskısı) kullanılmış
Bu biraz garip bir geçiş gibi görünüyordu. Ücretsiz tıbbi görüntü verisi Cancer Imaging Archive üzerinde de bolca var
Birinin böyle bir deney yapmasını umuyordum; gerçekten yapmış olmasına sevindim
“Eğitimin bitmesini beklerken yorulup sohbeti kapattım” kısmı güldürdü
Sonuçları paylaştığın için teşekkürler
Bu, otomatik araştırmadan çok yapılandırılmış deneme yanılma gibi
Sonuçta asıl mesele değerlendirme metriğinin kalitesi. Bu zayıfsa sadece yanlış yöne daha hızlı optimize etmiş olursunuz