LlamaGym - Çevrimiçi pekiştirmeli öğrenme ile LLM ajanlarının ince ayarı

xguru · 2024-03-22T10:16:01+09:00

LLM tabanlı ajanların pekiştirmeli öğrenme (RL) ile ince ayarlanmasını basitleştirir Şu anda LlamaGym, Gym ortamında ajan istemlerini ve hiperparametreleri hızlıca yinelemeyi ve denemeyi sağlayan tek bir Agent soyut sınıfı sunar Kullanıcılar, Agent sınıfındaki 3 soyut metodu uygulayarak kendi LLM tabanlı ajanlarını tanımlayabilir Kullanım LlamaGym kurulduktan sonra, Agent sınıfındaki 3 soyut metod uygulanarak bir blackjack oyuncusu ajanı oluşturulur. Temel LLM tanımlanır ve ajanın bir örneği oluşturulduktan sonra, ajanın eylemde bulunmasını, ödül almasını ve bölümü sonlandırmasını sağlayan bir RL döngüsü yazılır. Pekiştirmeli öğrenme ile çevrimiçi öğrenme zorlayıcı olduğundan hiperparametre ayarı gerekir; ayrıca denetimli ince ayar aşaması da faydalı olabilir.

(github.com/KhoomeiK)

9 puan yazan xguru 2024-03-22 | Henüz yorum yok. | WhatsApp'ta paylaş

LLM tabanlı ajanların pekiştirmeli öğrenme (RL) ile ince ayarlanmasını basitleştirir
Şu anda LlamaGym, Gym ortamında ajan istemlerini ve hiperparametreleri hızlıca yinelemeyi ve denemeyi sağlayan tek bir Agent soyut sınıfı sunar
Kullanıcılar, Agent sınıfındaki 3 soyut metodu uygulayarak kendi LLM tabanlı ajanlarını tanımlayabilir

Kullanım

LlamaGym kurulduktan sonra, Agent sınıfındaki 3 soyut metod uygulanarak bir blackjack oyuncusu ajanı oluşturulur.
Temel LLM tanımlanır ve ajanın bir örneği oluşturulduktan sonra, ajanın eylemde bulunmasını, ödül almasını ve bölümü sonlandırmasını sağlayan bir RL döngüsü yazılır.
Pekiştirmeli öğrenme ile çevrimiçi öğrenme zorlayıcı olduğundan hiperparametre ayarı gerekir; ayrıca denetimli ince ayar aşaması da faydalı olabilir.

LlamaGym - Çevrimiçi pekiştirmeli öğrenme ile LLM ajanlarının ince ayarı

Kullanım

İlgili okumalar

Henüz yorum yok.