4 puan yazan GN⁺ 2026-03-24 | 1 yorum | WhatsApp'ta paylaş
  • Autoresearch sistemi, LLM ajanının train.py dosyasını tekrar tekrar değiştirerek performansı iyileştirdiği bir kısıtlı optimizasyon döngüsü yapısıdır; hipotez kurulumundan değerlendirmeye kadar otomatik bir çevrim yürütür
  • Deneyler, ağ erişimini ve keyfi kod çalıştırmayı engelleyen konteyner tabanlı bir sandbox ortamında yürütüldü
  • Ukiyo-eVG veri kümesi kullanılarak yaklaşık 11.000 Japon ahşap baskı görseli ve açıklama bilgileri eğitimde kullanıldı; CLIP tabanlı model ile Mean Rank 34.30, R@5 yaklaşık %53 performansı elde edildi
  • Başlıca iyileştirmeler, temperature parametresinin gevşetilmesi (-113 Mean Rank) ve hiperparametre ayarı (-30 Mean Rank) oldu; bir günde yapılan 42 deney içinde 13 commit ile %54 performans artışı kaydedildi
  • LLM ajanı, açıkça tanımlanmış arama alanlarında etkili olsa da mimari değişiklik aşamasından sonra kararsızlık büyüdü ve tam otonom araştırmanın sınırları ortaya çıktı

Temel fikir

  • Autoresearch, LLM ajanı merkezli bir kısıtlı optimizasyon döngüsü yapısıdır; ajan train.py dosyasını değiştirerek değerlendirme metriklerini tekrar tekrar iyileştirir
    • Ajan, program.md içindeki talimatları okur ve scratchpad.md dosyasını çalışma notu olarak kullanarak deney sürecini kaydeder
  • Arama, birden çok aşama (phase) halinde düzenlenir; başlangıçta hiperparametre ayarıyla başlar, ardından küçük ölçekli mimari değişikliklere ve daha sonra kısıtları en aza indiren serbest aramaya genişler
  • Tüm döngü, hipotez kurma → kod değiştirme → eğitim → değerlendirme → commit veya geri alma → yineleme şeklinde döngüsel bir yapı olarak tasarlanmıştır
  • Her deney, hızlı yinelemeyi teşvik etmek ve overfitting'i önlemek için yaklaşık 5 dakika içinde tamamlanacak şekilde sınırlandırılır
  • Ajan, süre sınırı içinde train.py dosyasını serbestçe değiştirebilir
  • Sandbox

    • Keyfi kod çalıştırma riskini önlemek için eğitim döngüsü bir konteyner ortamında çalıştırılır ve ağ erişimi kapatılır
    • run.sh tüm deney akışını yönetir ve Claude Code yalnızca train.py ile program.md dosyalarını değiştirebilir
    • Python'ın doğrudan çalıştırılması, pip kurulumu, ağ erişimi, git push vb. işlemlerin tümü kısıtlanır
    • İlgili uygulama GitHub deposunda açık olarak paylaşılmıştır

Veri kümesi

  • Orijinal araştırmada kullanılan tıbbi X-ray veri kümesine erişilemediği için bu kez Ukiyo-eVG veri kümesi kullanıldı
    • Yaklaşık 11.000 Japon ahşap baskı görseli ve metin-bounding box açıklamaları içerir
    • Bounding box'lar Gaussian heatmap'e dönüştürülerek model girdisine eklendi; bu, orijinal eCLIP makalesindeki uzman attention mekanizmasına benzer bir yaklaşımdır
  • Heatmap'ler modelin belirli bölgelere odaklanmasını teşvik eder

Claude Code ile deney kurulumu

  • Claude Code, mevcut araştırma kodunu güncel Python ortamına yükseltti ve yeni veri kümesi yükleme ile deney döngüsü iskeletini yazdı
  • Çapraz doğrulama bölmeleri, değerlendirme mantığı ve program.md içindeki başlangıç fikirleri ayarlandı
  • Değerlendirme metriği olarak Mean Rank kullanıldı; nihai raporda ise buna ek olarak Recall@K verildi
    • Mean Rank sezgisel değerlendirme için kullanıldı, ancak aykırı değerlere daha az duyarlı olan Median Rank'ın daha uygun olabileceği belirtildi
  • Model yapılandırması: CLIP backbone olarak ViT-Small(22M) + DistilBERT(66M) + HeatmapProcessor, toplamda yaklaşık 90M parametre
    • Eğitim: 800 adım (RTX 4090 bazında yaklaşık 3 dakika/deney)
    • Değerlendirme: 1.000 görsellik test setinde Mean Rank ve Recall@K ölçümü
    • Başlangıç performansı: Val Mean Rank 344.68, img→txt R@1 %17.2, txt→img R@1 %16.5

Deney sonuçları

  • Bir gün boyunca toplam 42 deney yapıldı; bunların 13'ü commit, 29'u geri alma ile sonuçlandı
    • Mean Rank, 344.68'den 157.43'e inerek %54 azaldı
  • Tüm veri kümesiyle son eğitim yapıldığında test puanları doğrulama puanlarından daha yüksek çıktı
    • Bu, kısa 800 adımlık deneylerin underfitting durumunda olduğunu düşündürüyor
  • Nihai test performansı: Mean Rank 34.30, img→txt R@5 %53.0, txt→img R@5 %51.4

Başlıca iyileştirme noktaları

  • Temperature clamp düzeltmesi (-113 Mean Rank)

    • Kod içindeki öğrenilebilir temperature parametresi 2'ye sabitlenmişti; ajan bunu gevşetince performans önemli ölçüde arttı
    • Tüm iyileştirmeler içindeki en büyük tekil etki buydu
  • Optuna++ (-30 Mean Rank)

    • Sonraki iyileştirmeler ağırlıklı olarak hiperparametre ayarı üzerinden geldi
    • Projeksiyon boyutunun artırılması ve öğrenme oranının yeniden ayarlanmasıyla ek 30 puan iyileşme sağlandı
    • İnsanların tekrar tekrar yaptığı sıkıcı işleri ajan daha hızlı ve daha sistematik biçimde gerçekleştirdi
  • Azalan getiri bölgesi

      1. aşamadan (mimari değişiklik) sonra LLM'in hipotez başarı oranı keskin biçimde düştü
    • Attention mekanizması değişiklikleri veya cesur fikirler (moonshot) denemeleri çoğunlukla başarısız oldu
    • Aramanın son bölümünde daha çok rastgele denemeler görüldü
  • Sandbox'ın önemi

    • Claude Code bazen yetkilerini unutup hatalı bash çağrıları yapmaya çalıştı ya da eğitim beklerken döngüyü durdurmak gibi kararsız davranışlar sergiledi
    • Tamamen otonom yürütme için hâlâ sınırlar var

Kapanış gözlemleri

  • Tüm süreç boyunca ilk %90 sorunsuz ilerledi, son %10 ise çok sayıda müdahale gerektirdi
  • LLM ajanı, açıkça tanımlanmış arama alanı içinde ML araştırmasını etkili biçimde yürütebilir
  • Autoresearch'ün commit-geri alma döngüsü, yapılandırılmış bir arama stratejisi olarak faydalıdır
  • Ancak bilinmeyen alanlara genişlediğinde optimizasyon döngüsü kararsızlaşıyor
  • Deney başına yalnızca tek bir değişikliğe izin veren kısıt, büyük ölçekli fikir keşfi için gereğinden fazla katı olmuş olabilir
    • Gelecekte planlama aşaması ekleme veya alt ajanlar (subagent) kullanımı iyileştirme yönü olarak öneriliyor
  • Deney sona erdikten sonra Claude Code ile işbirliği de günlük rutine dönülerek tamamlandı

Teşekkür

  • Ukiyo-eVG veri kümesi: yaklaşık 11 bin Japon ahşap baskı görseli ve metin-bounding box açıklamaları içerir
  • Autoresearch: Andrej Karpathy'nin orijinal fikrine dayanır

1 yorum

 
GN⁺ 2026-03-24
Hacker News görüşleri
  • Ana bağlantı yavaşsa archive.is sürümünü denemeniz öneriliyor

  • Ben sık sık LLM kullanarak mevcut araştırmaları inceliyor ya da bir problemi farklı bir açıdan düşünmeye çalışıyorum
    Sonuçların %90'ı benim alanıma uymuyor ama kalan %10 oldukça faydalı oldu
    Ama LLM'in önerdiği her şeyi gerçekten deneyen bir ajan bulundurmak fazla maliyetli ($$$)
    Öneri listesinde sık sık bakımı yapılmayan niş kütüphaneler oluyor
    Öte yandan şirketlerin “uzman danışmanları” da benzer şekilde saçma öneriler sunabiliyor; bu yüzden keşke ajan onlarla benim yerime uğraşsa

    • Ajanın değeri, kullanıcı dinlenirken deneyleri otomatik olarak yineleyebilmesi
      Ancak bu yalnızca tek bir test hızlıysa anlamlı. Benim işimde bir test yarım gün sürdüğü için gece boyunca çalıştırmak zor
    • Hangi alanda çalıştığını merak ettim
    • Bence LLM, hatırlaması uğraştıran kısa cümleler ya da yanlış olsa da çok sorun olmayan yerlerde faydalı
      MCP sunucusu ya da AGENTS.md gibi şeyler kuran insanları görünce, bunun aslında LLM'in vaat edildiği gibi çalışmadığının kanıtı olduğunu düşünüyorum
      Belirli bir iş akışına göre iyi ayarlanırsa harika olabilir ama bunun ölçeklenebilir olup olmayacağı şüpheli
      Eğitim ve altyapıyı ayakta tutan devasa finansman olmadan sürdürülebilir bir iş modeli olabilir mi?
    • Maliyet sorun olabilir. Ben Claude Code'u hafif şekilde kullanıyorum ve Max planda bile tokenlar neredeyse hiç tükenmiyor
  • “Ajan, hiperparametre optimizasyon algoritması gibi davrandı” ifadesi etkileyiciydi
    İşin özü, program.md adlı tek bir sistem istemi dosyasıyla “train.py iyileştir → eğitimi çalıştır → değerlendir → sonuçları kaydet” döngüsünü tekrar etmek
    Geri kalanı ise rastgele bir ML modelinden ibaret

  • Çalışan kodu LLM'e verip hata düzeltme, performans ölçümü ve test kapsamı değerlendirmesini tekrar ettirmek ekibimizin standart yaklaşımı
    Her yinelemede farklı bir model kullanmak yeni bir bakış açısı kazandırıyormuş gibi hissettirdiği için hoşuma gitti

    • Bu yöntemin belirli dil veya framework'lere özel yerel LLM eğitimi için uygulanıp uygulanamayacağını merak ediyorum
  • “Autoresearch”in neden bu kadar ilgi gördüğünü merak ettim
    AI/ML'deki darboğazın hep veri kalitesi ya da hesaplama kaynakları olduğunu düşünürdüm; bunun bunları iyileştirip iyileştirmediğini bilmiyorum

    • Aslında böyle denemeler eskiden beri vardı. AutoML alanı bunun bir örneği ama pratikte pek iyi gitmedi
      Bayesian optimizasyonu ya da Gaussian Process gibi yaklaşımlar da vardı ama sonunda rastgele arama daha iyi çıktı
      LLM'i farklı kılan şey, literatüre bakıp sağduyulu çıkarımlar yapabilmesi
      Kusursuz değil ama mevcut yöntemlerden daha iyi olma ihtimali var
    • Sadece basit hiperparametre ayarının ötesine geçip parametrik olmayan yapısal değişiklikler de yapabilmesi fark yaratıyor
      Tamamen yeni bir kavram değil ama daha az brute-force olacağı umuluyor
    • “Swarm optimization” gibi mevcut teknikler de var ama LLM'i farklı kılan, geçmiş araştırmaları öğrenip önemli eksenlere odaklanabilmesi
      Yani LLM, birilerinin daha önce yaptığı araştırmaları kullanabilir
    • “Darboğaz veri ya da compute” sözüne katılmıyorum
      ML'in özü, aynı girdi X için daha iyi bir fonksiyon eşlemesi bulmak
      Bu sadece hesaplama gücünü artırarak çözülecek bir şey değil
    • Sonuçta Autoresearch, düşünmenin kendisini LLM'e devretme yöntemi
  • Sonuç olarak işe yaradı. LLM hem hata buldu hem de optimizasyon yaptı

    • Ama gerçekte iyileştirmelerin çoğu hata düzeltme + Optuna ayarı sayesinde oldu
      Bunlar zaten Claude Code ile de hızlıca yapılabilir
      Autoresearch'in asıl değeri muhtemelen mimari keşif tarafında
      Bunu keşif amaçlı modelleme için kullanan birinin deneyimi olup olmadığını merak ediyorum
  • Commit günlüğüne (GitHub bağlantısı) bakınca çoğunun hiperparametre ayarı olduğu görülüyor
    O seviyede token maliyetine ($$$) değmez gibi geliyor

    • Autoresearch'e maliyet tahmini ve sıralama aşaması eklenip insan onayından sonra çalıştırılması verimli olabilir
      LoRa adaptörüyle maliyet geri bildirimi verilerek geliştirilebilir
    • Aslında Optuna ya da skopt gibi açık kaynak araçlarla GPU olmadan da yapılabilir
  • Orijinal makalede tıbbi X-ray verisi kullanılmış ama erişim olmadığı için bunun yerine Ukiyo-eVG (11 bin Japon ahşap baskısı) kullanılmış
    Bu biraz garip bir geçiş gibi görünüyordu. Ücretsiz tıbbi görüntü verisi Cancer Imaging Archive üzerinde de bolca var

    • Doğru. Ancak tıbbi verileri ajana emanet etmek konusunda çekincelerim vardı ve alan aktarımını denemek istedim
  • Birinin böyle bir deney yapmasını umuyordum; gerçekten yapmış olmasına sevindim
    “Eğitimin bitmesini beklerken yorulup sohbeti kapattım” kısmı güldürdü
    Sonuçları paylaştığın için teşekkürler

    • Teşekkür etmiş, keyifle okuduğunu söylemiş
  • Bu, otomatik araştırmadan çok yapılandırılmış deneme yanılma gibi
    Sonuçta asıl mesele değerlendirme metriğinin kalitesi. Bu zayıfsa sadece yanlış yöne daha hızlı optimize etmiş olursunuz

    • İyi bir fitness function tasarlamak geçmişte de zordu, bugün de zor
    • Sonuçta bunun tam da bilimsel yöntem olduğu görüşü de var