- LLM tabanlı ajanların pekiştirmeli öğrenme (RL) ile ince ayarlanmasını basitleştirir
- Şu anda LlamaGym, Gym ortamında ajan istemlerini ve hiperparametreleri hızlıca yinelemeyi ve denemeyi sağlayan tek bir
Agent soyut sınıfı sunar
- Kullanıcılar,
Agent sınıfındaki 3 soyut metodu uygulayarak kendi LLM tabanlı ajanlarını tanımlayabilir
Kullanım
- LlamaGym kurulduktan sonra,
Agent sınıfındaki 3 soyut metod uygulanarak bir blackjack oyuncusu ajanı oluşturulur.
- Temel LLM tanımlanır ve ajanın bir örneği oluşturulduktan sonra, ajanın eylemde bulunmasını, ödül almasını ve bölümü sonlandırmasını sağlayan bir RL döngüsü yazılır.
- Pekiştirmeli öğrenme ile çevrimiçi öğrenme zorlayıcı olduğundan hiperparametre ayarı gerekir; ayrıca denetimli ince ayar aşaması da faydalı olabilir.
Henüz yorum yok.