Microsoft Agent Lightning: Kod Değişikliği Olmadan Yapay Zeka Ajanlarını Güçlendirmeli Öğrenmeyle Eğitme Çerçevesi

(aisparkup.com)

13 puan yazan davespark 2025-10-27 | Henüz yorum yok. | WhatsApp'ta paylaş

Microsoft Research tarafından tanıtılan Agent Lightning, mevcut yapay zeka ajanı kodunu neredeyse hiç değiştirmeden güçlendirmeli öğrenme (RL) ile eğitmeyi mümkün kılan yenilikçi bir çerçevedir. LangChain, AutoGen gibi çeşitli ajan çerçeveleriyle uyumludur ve SQL ajanı testlerinde doğruluğu %73,2’den %80,4’e yükseltmesi gibi somut sonuçlar göstermiştir.

Başlıca özellikler

Training-Agent Disaggregation mimarisi: Ajan çalıştırma ile RL eğitimini tamamen ayırır. Sidecar tasarımıyla müdahalesiz veri toplama (promptlar, araç çağrıları, ödül sinyalleri) sağlar ve böylece sıfır kod değişikliği mümkün olur.
Çerçeveden bağımsızlık: OpenAI uyumlu API üzerinden LangChain, OpenAI Agent SDK, CrewAI gibi her türlü ajanla anında entegre olabilir.
GRPO algoritması: PPO’nun bir varyantı olarak grup içi göreli performans karşılaştırmasıyla bellek açısından verimli öğrenme sağlar. LightningRL, karmaşık çok turlu etkileşimleri transition’lara ayırarak credit assignment sorununu ele alır.

Gerçek kullanım örneği: SQL ajanı

LangGraph tabanlı SQL ajanı (doğal dil sorularını SQL sorgularına dönüştürme, çalıştırma ve hata düzeltme döngüsü) üzerinde eğitim:

Eğitim süreci: Sunucu çalıştırıldıktan sonra yalnızca istemci bağlantısıyla başlatılabilir. Örnek: Qwen2.5-Coder-3B modeli kullanımı.
Sonuçlar: Spider veri setinde doğruluk %73,2 → %80,4, ortalama transition sayısı 3.30 → 2.60; yani verimlilik arttı. 7B model %84,4’e ulaştı.

Kurulum ve kullanım

pip install agentlightning (ek olarak: [apo] veya [verl] seçenekleri).
GitHub examples içinde Text-to-SQL, RAG gibi örnekler sunuluyor. Çok ajanlı sistemlerde de seçmeli optimizasyon mümkün.
Desteklenen algoritmalar: GRPO/PPO, Supervised Fine-tuning, APO (prompt optimizasyonu).

Gelecek görünümü

DeepWerewolf gibi örneklerle topluluğun canlandığı bir açık kaynak proje olarak öne çıkıyor. Gelecekte daha zengin ödül mekanizmaları, off-policy RL, müfredat öğrenimi gibi genişlemeler planlanıyor. Ajan geliştirme ile optimizasyonu ayıran bu yaklaşımın, uyarlanabilir ajan çağının önünü açması bekleniyor.