Eski bir araştırma fikrinde Autoresearch yürütmek

(ykumar.me)

4 puan yazan GN⁺ 2026-03-24 | 1 yorum | WhatsApp'ta paylaş

Autoresearch sistemi, LLM ajanının train.py dosyasını tekrar tekrar değiştirerek performansı iyileştirdiği bir kısıtlı optimizasyon döngüsü yapısıdır; hipotez kurulumundan değerlendirmeye kadar otomatik bir çevrim yürütür
Deneyler, ağ erişimini ve keyfi kod çalıştırmayı engelleyen konteyner tabanlı bir sandbox ortamında yürütüldü
Ukiyo-eVG veri kümesi kullanılarak yaklaşık 11.000 Japon ahşap baskı görseli ve açıklama bilgileri eğitimde kullanıldı; CLIP tabanlı model ile Mean Rank 34.30, R@5 yaklaşık %53 performansı elde edildi
Başlıca iyileştirmeler, temperature parametresinin gevşetilmesi (-113 Mean Rank) ve hiperparametre ayarı (-30 Mean Rank) oldu; bir günde yapılan 42 deney içinde 13 commit ile %54 performans artışı kaydedildi
LLM ajanı, açıkça tanımlanmış arama alanlarında etkili olsa da mimari değişiklik aşamasından sonra kararsızlık büyüdü ve tam otonom araştırmanın sınırları ortaya çıktı

Temel fikir

Autoresearch, LLM ajanı merkezli bir kısıtlı optimizasyon döngüsü yapısıdır; ajan train.py dosyasını değiştirerek değerlendirme metriklerini tekrar tekrar iyileştirir
- Ajan, program.md içindeki talimatları okur ve scratchpad.md dosyasını çalışma notu olarak kullanarak deney sürecini kaydeder
Arama, birden çok aşama (phase) halinde düzenlenir; başlangıçta hiperparametre ayarıyla başlar, ardından küçük ölçekli mimari değişikliklere ve daha sonra kısıtları en aza indiren serbest aramaya genişler
Tüm döngü, hipotez kurma → kod değiştirme → eğitim → değerlendirme → commit veya geri alma → yineleme şeklinde döngüsel bir yapı olarak tasarlanmıştır
Her deney, hızlı yinelemeyi teşvik etmek ve overfitting'i önlemek için yaklaşık 5 dakika içinde tamamlanacak şekilde sınırlandırılır
Ajan, süre sınırı içinde train.py dosyasını serbestçe değiştirebilir
Sandbox
- Keyfi kod çalıştırma riskini önlemek için eğitim döngüsü bir konteyner ortamında çalıştırılır ve ağ erişimi kapatılır
- run.sh tüm deney akışını yönetir ve Claude Code yalnızca train.py ile program.md dosyalarını değiştirebilir
- Python'ın doğrudan çalıştırılması, pip kurulumu, ağ erişimi, git push vb. işlemlerin tümü kısıtlanır
- İlgili uygulama GitHub deposunda açık olarak paylaşılmıştır

Veri kümesi

Orijinal araştırmada kullanılan tıbbi X-ray veri kümesine erişilemediği için bu kez Ukiyo-eVG veri kümesi kullanıldı
- Yaklaşık 11.000 Japon ahşap baskı görseli ve metin-bounding box açıklamaları içerir
- Bounding box'lar Gaussian heatmap'e dönüştürülerek model girdisine eklendi; bu, orijinal eCLIP makalesindeki uzman attention mekanizmasına benzer bir yaklaşımdır
Heatmap'ler modelin belirli bölgelere odaklanmasını teşvik eder

Claude Code ile deney kurulumu

Claude Code, mevcut araştırma kodunu güncel Python ortamına yükseltti ve yeni veri kümesi yükleme ile deney döngüsü iskeletini yazdı
Çapraz doğrulama bölmeleri, değerlendirme mantığı ve program.md içindeki başlangıç fikirleri ayarlandı
Değerlendirme metriği olarak Mean Rank kullanıldı; nihai raporda ise buna ek olarak Recall@K verildi
- Mean Rank sezgisel değerlendirme için kullanıldı, ancak aykırı değerlere daha az duyarlı olan Median Rank'ın daha uygun olabileceği belirtildi
Model yapılandırması: CLIP backbone olarak ViT-Small(22M) + DistilBERT(66M) + HeatmapProcessor, toplamda yaklaşık 90M parametre
- Eğitim: 800 adım (RTX 4090 bazında yaklaşık 3 dakika/deney)
- Değerlendirme: 1.000 görsellik test setinde Mean Rank ve Recall@K ölçümü
- Başlangıç performansı: Val Mean Rank 344.68, img→txt R@1 %17.2, txt→img R@1 %16.5

Deney sonuçları

Bir gün boyunca toplam 42 deney yapıldı; bunların 13'ü commit, 29'u geri alma ile sonuçlandı
- Mean Rank, 344.68'den 157.43'e inerek %54 azaldı
Tüm veri kümesiyle son eğitim yapıldığında test puanları doğrulama puanlarından daha yüksek çıktı
- Bu, kısa 800 adımlık deneylerin underfitting durumunda olduğunu düşündürüyor
Nihai test performansı: Mean Rank 34.30, img→txt R@5 %53.0, txt→img R@5 %51.4

Başlıca iyileştirme noktaları

Temperature clamp düzeltmesi (-113 Mean Rank)
- Kod içindeki öğrenilebilir temperature parametresi 2'ye sabitlenmişti; ajan bunu gevşetince performans önemli ölçüde arttı
- Tüm iyileştirmeler içindeki en büyük tekil etki buydu
Optuna++ (-30 Mean Rank)
- Sonraki iyileştirmeler ağırlıklı olarak hiperparametre ayarı üzerinden geldi
- Projeksiyon boyutunun artırılması ve öğrenme oranının yeniden ayarlanmasıyla ek 30 puan iyileşme sağlandı
- İnsanların tekrar tekrar yaptığı sıkıcı işleri ajan daha hızlı ve daha sistematik biçimde gerçekleştirdi
Azalan getiri bölgesi
- 1. aşamadan (mimari değişiklik) sonra LLM'in hipotez başarı oranı keskin biçimde düştü
- Attention mekanizması değişiklikleri veya cesur fikirler (moonshot) denemeleri çoğunlukla başarısız oldu
- Aramanın son bölümünde daha çok rastgele denemeler görüldü
Sandbox'ın önemi
- Claude Code bazen yetkilerini unutup hatalı bash çağrıları yapmaya çalıştı ya da eğitim beklerken döngüyü durdurmak gibi kararsız davranışlar sergiledi
- Tamamen otonom yürütme için hâlâ sınırlar var

Kapanış gözlemleri

Tüm süreç boyunca ilk %90 sorunsuz ilerledi, son %10 ise çok sayıda müdahale gerektirdi
LLM ajanı, açıkça tanımlanmış arama alanı içinde ML araştırmasını etkili biçimde yürütebilir
Autoresearch'ün commit-geri alma döngüsü, yapılandırılmış bir arama stratejisi olarak faydalıdır
Ancak bilinmeyen alanlara genişlediğinde optimizasyon döngüsü kararsızlaşıyor
Deney başına yalnızca tek bir değişikliğe izin veren kısıt, büyük ölçekli fikir keşfi için gereğinden fazla katı olmuş olabilir
- Gelecekte planlama aşaması ekleme veya alt ajanlar (subagent) kullanımı iyileştirme yönü olarak öneriliyor
Deney sona erdikten sonra Claude Code ile işbirliği de günlük rutine dönülerek tamamlandı

Teşekkür

Ukiyo-eVG veri kümesi: yaklaşık 11 bin Japon ahşap baskı görseli ve metin-bounding box açıklamaları içerir
Autoresearch: Andrej Karpathy'nin orijinal fikrine dayanır

1 yorum

GN⁺ 2026-03-24

Hacker News görüşleri

Ana bağlantı yavaşsa archive.is sürümünü denemeniz öneriliyor
Ben sık sık LLM kullanarak mevcut araştırmaları inceliyor ya da bir problemi farklı bir açıdan düşünmeye çalışıyorum
Sonuçların %90'ı benim alanıma uymuyor ama kalan %10 oldukça faydalı oldu
Ama LLM'in önerdiği her şeyi gerçekten deneyen bir ajan bulundurmak fazla maliyetli ($$$)
Öneri listesinde sık sık bakımı yapılmayan niş kütüphaneler oluyor
Öte yandan şirketlerin “uzman danışmanları” da benzer şekilde saçma öneriler sunabiliyor; bu yüzden keşke ajan onlarla benim yerime uğraşsa
- Ajanın değeri, kullanıcı dinlenirken deneyleri otomatik olarak yineleyebilmesi
  Ancak bu yalnızca tek bir test hızlıysa anlamlı. Benim işimde bir test yarım gün sürdüğü için gece boyunca çalıştırmak zor
- Hangi alanda çalıştığını merak ettim
- Bence LLM, hatırlaması uğraştıran kısa cümleler ya da yanlış olsa da çok sorun olmayan yerlerde faydalı
  MCP sunucusu ya da AGENTS.md gibi şeyler kuran insanları görünce, bunun aslında LLM'in vaat edildiği gibi çalışmadığının kanıtı olduğunu düşünüyorum
  Belirli bir iş akışına göre iyi ayarlanırsa harika olabilir ama bunun ölçeklenebilir olup olmayacağı şüpheli
  Eğitim ve altyapıyı ayakta tutan devasa finansman olmadan sürdürülebilir bir iş modeli olabilir mi?
- Maliyet sorun olabilir. Ben Claude Code'u hafif şekilde kullanıyorum ve Max planda bile tokenlar neredeyse hiç tükenmiyor
“Ajan, hiperparametre optimizasyon algoritması gibi davrandı” ifadesi etkileyiciydi
İşin özü, program.md adlı tek bir sistem istemi dosyasıyla “train.py iyileştir → eğitimi çalıştır → değerlendir → sonuçları kaydet” döngüsünü tekrar etmek
Geri kalanı ise rastgele bir ML modelinden ibaret
Çalışan kodu LLM'e verip hata düzeltme, performans ölçümü ve test kapsamı değerlendirmesini tekrar ettirmek ekibimizin standart yaklaşımı
Her yinelemede farklı bir model kullanmak yeni bir bakış açısı kazandırıyormuş gibi hissettirdiği için hoşuma gitti
- Bu yöntemin belirli dil veya framework'lere özel yerel LLM eğitimi için uygulanıp uygulanamayacağını merak ediyorum
“Autoresearch”in neden bu kadar ilgi gördüğünü merak ettim
AI/ML'deki darboğazın hep veri kalitesi ya da hesaplama kaynakları olduğunu düşünürdüm; bunun bunları iyileştirip iyileştirmediğini bilmiyorum
- Aslında böyle denemeler eskiden beri vardı. AutoML alanı bunun bir örneği ama pratikte pek iyi gitmedi
  Bayesian optimizasyonu ya da Gaussian Process gibi yaklaşımlar da vardı ama sonunda rastgele arama daha iyi çıktı
  LLM'i farklı kılan şey, literatüre bakıp sağduyulu çıkarımlar yapabilmesi
  Kusursuz değil ama mevcut yöntemlerden daha iyi olma ihtimali var
- Sadece basit hiperparametre ayarının ötesine geçip parametrik olmayan yapısal değişiklikler de yapabilmesi fark yaratıyor
  Tamamen yeni bir kavram değil ama daha az brute-force olacağı umuluyor
- “Swarm optimization” gibi mevcut teknikler de var ama LLM'i farklı kılan, geçmiş araştırmaları öğrenip önemli eksenlere odaklanabilmesi
  Yani LLM, birilerinin daha önce yaptığı araştırmaları kullanabilir
- “Darboğaz veri ya da compute” sözüne katılmıyorum
  ML'in özü, aynı girdi X için daha iyi bir fonksiyon eşlemesi bulmak
  Bu sadece hesaplama gücünü artırarak çözülecek bir şey değil
- Sonuçta Autoresearch, düşünmenin kendisini LLM'e devretme yöntemi
Sonuç olarak işe yaradı. LLM hem hata buldu hem de optimizasyon yaptı
- Ama gerçekte iyileştirmelerin çoğu hata düzeltme + Optuna ayarı sayesinde oldu
  Bunlar zaten Claude Code ile de hızlıca yapılabilir
  Autoresearch'in asıl değeri muhtemelen mimari keşif tarafında
  Bunu keşif amaçlı modelleme için kullanan birinin deneyimi olup olmadığını merak ediyorum
Commit günlüğüne (GitHub bağlantısı) bakınca çoğunun hiperparametre ayarı olduğu görülüyor
O seviyede token maliyetine ($$$) değmez gibi geliyor
- Autoresearch'e maliyet tahmini ve sıralama aşaması eklenip insan onayından sonra çalıştırılması verimli olabilir
  LoRa adaptörüyle maliyet geri bildirimi verilerek geliştirilebilir
- Aslında Optuna ya da skopt gibi açık kaynak araçlarla GPU olmadan da yapılabilir
Orijinal makalede tıbbi X-ray verisi kullanılmış ama erişim olmadığı için bunun yerine Ukiyo-eVG (11 bin Japon ahşap baskısı) kullanılmış
Bu biraz garip bir geçiş gibi görünüyordu. Ücretsiz tıbbi görüntü verisi Cancer Imaging Archive üzerinde de bolca var
- Doğru. Ancak tıbbi verileri ajana emanet etmek konusunda çekincelerim vardı ve alan aktarımını denemek istedim
Birinin böyle bir deney yapmasını umuyordum; gerçekten yapmış olmasına sevindim
“Eğitimin bitmesini beklerken yorulup sohbeti kapattım” kısmı güldürdü
Sonuçları paylaştığın için teşekkürler
- Teşekkür etmiş, keyifle okuduğunu söylemiş
Bu, otomatik araştırmadan çok yapılandırılmış deneme yanılma gibi
Sonuçta asıl mesele değerlendirme metriğinin kalitesi. Bu zayıfsa sadece yanlış yöne daha hızlı optimize etmiş olursunuz
- İyi bir fitness function tasarlamak geçmişte de zordu, bugün de zor
- Sonuçta bunun tam da bilimsel yöntem olduğu görüşü de var

Eski bir araştırma fikrinde Autoresearch yürütmek

Temel fikir

Sandbox

Veri kümesi

Claude Code ile deney kurulumu

Deney sonuçları

Başlıca iyileştirme noktaları

Temperature clamp düzeltmesi (-113 Mean Rank)

Optuna++ (-30 Mean Rank)

Azalan getiri bölgesi

Sandbox'ın önemi

Kapanış gözlemleri

Teşekkür

İlgili okumalar

1 yorum

Hacker News görüşleri