pi-autoresearch: Karpathy’nin “AI otonom deney” fikrini genelleştiren açık kaynak

(github.com/davebcn87)

30 puan yazan ragingwind 13 일 전 | 2 yorum | WhatsApp'ta paylaş

Tek satırlık özet

Bir fikri dene → ölç → iyileşirse tut, yoksa at → sonsuza dek tekrarla.

pi-autoresearch, terminal AI kodlama ajanı pi için bir uzantı olup, Karpathy’nin autoresearch konseptini her türlü optimizasyon problemine uygulanabilecek şekilde genelleştiren bir projedir.

Önce, pi nedir?

pi, terminalde çalışan bir AI kodlama ajanıdır. Cursor veya Windsurf gibi IDE tabanlı araçlardan farklı olarak terminal yereli olacak şekilde tasarlanmıştır; bu yüzden SSH bağlantı ortamlarında veya headless sunucularda da doğrudan kullanılabilir.

pi’nin temel özellikleri Extension ve Skill sistemleridir:

Extension — Ajana yeni araçlar (tool) ekler. Dosya okuma/yazma, komut çalıştırma gibi temel araçların yanında, özel araçlar da eklenti gibi takılabilir.
Skill — Belirli iş kalıplarını öğretir. “Böyle bir durumda bu araçları şu sırayla kullan” türü iş akışlarını tanımlar.

Topluluğun geliştirdiği Extension ve Skill’ler pi install <github-url> tek satırıyla kurulabildiği için, ajanın yetenekleri serbestçe genişletilebilen bir yapıya sahiptir. pi-autoresearch tam da bu sistemin üzerine kurulmuş bir Extension+Skill paketidir.

Arka plan: Karpathy’nin autoresearch’ü

Mart 2026’da Karpathy’nin duyurduğu autoresearch fikri basitti:

AI ajana bir adet LLM eğitim kodu (train.py) ver
Kodu değiştirmesini sağla, 5 dakika eğitsin
Doğrulama loss’u iyileşirse keep, değilse discard
Gece boyunca tekrarla → sabah uyandığında deney logları + daha iyi bir model

Aşırı minimalist tasarımıyla (3 dosya, 1 GPU, 1 metrik), “ajan bir araştırmacı rolünü otonom şekilde yerine getirir” konseptini kanıtlamaya odaklanan bir projeydi. Ancak doğası gereği NVIDIA GPU’ya özel olması ve yalnızca LLM eğitimi için uygulanabilmesi gibi sınırları vardı.

pi-autoresearch’ün farkı ne?

1. Alan kısıtı yok

Sadece LLM eğitim loss’u değil; test çalışma hızı, bundle boyutu, build süresi, Lighthouse puanı gibi ölçülebilen her şey optimizasyon hedefi olabilir. Bunun nedeni pi’nin “altyapı (Extension) ve alan bilgisi (Skill)” ayrımına dayanan yapısıdır.

Test hızı — seconds ↓ — pnpm test
Bundle boyutu — KB ↓ — pnpm build && du -sb dist
LLM eğitimi — val_bpb ↓ — uv run train.py
Lighthouse — perf score ↑ — lighthouse --output=json

2. Yeniden başlasa da hafızasını kaybetmiyor

AI ajanlarının context window sınırı olduğu için, uzun süren deneylerde bağlam sıfırlanabilir veya süreç çökebilir. pi-autoresearch iki dosya ile oturum durumunu tamamen korur:

autoresearch.jsonl — tüm deneylerin append-only log’u
autoresearch.md — hedef, denenenler, çıkmaz yollar ve temel kazanımların özeti

Hiç hafızası olmayan yeni bir ajan bile yalnızca bu iki dosyayı okuyarak önceki oturumu eksiksiz devralabilir. Bu, fiilen “ajan için harici hafıza” desenidir.

3. Gürültü ile gerçek iyileşmeyi ayırıyor

Benchmark’larda aynı kod çalıştırılsa bile sonuçlar her seferinde farklı olabilir. 3 veya daha fazla çalıştırmadan sonra MAD (Median Absolute Deviation) tabanlı confidence score otomatik hesaplanır ve iyileşmenin gerçek mi yoksa gürültü mü olduğunu görsel olarak gösterir.

🟢 ≥ 2.0× — iyileşmenin gerçek olma olasılığı yüksek
🟡 1.0–2.0× — gürültünün ötesinde ama küçük
🔴 < 1.0× — gürültü aralığında, yeniden çalıştırma önerilir

Yine de deneyleri otomatik olarak elemez; son karar ajana bırakılır.

4. Optimizasyonun doğruluğu bozmamasını sağlıyor

autoresearch.checks.sh eklenirse, benchmark geçtikten sonra test, typecheck, lint gibi doğruluk kontrolleri otomatik olarak çalışır. Böylece “hızlandırdım ama testleri bozdu” şeklindeki tipik tuzak sistem seviyesinde engellenir.

5. Deney sonuçlarını temiz PR’lere dönüştürüyor

Deney bittiğinde autoresearch-finalize skill’i, keep edilen deneyleri mantıksal changeset’ler halinde gruplayıp bağımsız git branch’lerine ayırır. Dosyaların çakışmaması garanti edildiği için her branch bağımsız olarak incelenip merge edilebilir.

İş akışı

1. /autoresearch optimize unit test runtime  
   → hedef, komut ve metrik ayarı → baseline ölçümü → döngüyü başlat  
  
2. Otonom döngü (sonsuz tekrar)  
   → kodu değiştir → git commit → benchmark → doğruluk kontrolü  
   → iyileşti mi? keep / kötüleşti mi? revert → .jsonl’e kaydet → tekrarla  
  
3. /skill:autoresearch-finalize  
   → keep edilen deneyleri bağımsız branch’lerde düzenle → incele ve merge et

Maliyet kontrolü

Otonom döngü sürekli token tükettiği için, API anahtarı limit ayarı ve maxIterations (oturum başına en yüksek deney sayısı) olmak üzere iki tür guardrail sunuluyor.

Neden dikkat çekici?

Karpathy’nin autoresearch’ü “AI kendi kendine deney yapıyor” fikrine ilginç bir konsept kanıtı sunduysa, pi-autoresearch bunu gerçek geliştirme ortamlarında kullanılabilecek genel amaçlı bir araç haline getirme girişimi. pi’nin Extension/Skill mimarisi üzerine kurulu olduğu için, tek satırlık kurulumla mevcut pi iş akışına doğrudan eklenebilmesi de giriş engelini düşürüyor.

Oturum durumunu koruma, istatistiksel güven doğrulaması, doğruluğu koruma ve Git yerel iş akışı gibi pratik sorunları sistematik biçimde çözmesi etkileyici; gece çalıştırıp sabah PR inceleme iş akışının gerçekten mümkün olup olmayacağını izlemek ilginç olacak.

2 yorum

tensun 12 일 전

Yine pi

unqocn 13 일 전

pi'yi çok seviyorum