9 puan yazan xguru 2024-03-22 | Henüz yorum yok. | WhatsApp'ta paylaş
  • LLM tabanlı ajanların pekiştirmeli öğrenme (RL) ile ince ayarlanmasını basitleştirir
  • Şu anda LlamaGym, Gym ortamında ajan istemlerini ve hiperparametreleri hızlıca yinelemeyi ve denemeyi sağlayan tek bir Agent soyut sınıfı sunar
  • Kullanıcılar, Agent sınıfındaki 3 soyut metodu uygulayarak kendi LLM tabanlı ajanlarını tanımlayabilir

Kullanım

  • LlamaGym kurulduktan sonra, Agent sınıfındaki 3 soyut metod uygulanarak bir blackjack oyuncusu ajanı oluşturulur.
  • Temel LLM tanımlanır ve ajanın bir örneği oluşturulduktan sonra, ajanın eylemde bulunmasını, ödül almasını ve bölümü sonlandırmasını sağlayan bir RL döngüsü yazılır.
  • Pekiştirmeli öğrenme ile çevrimiçi öğrenme zorlayıcı olduğundan hiperparametre ayarı gerekir; ayrıca denetimli ince ayar aşaması da faydalı olabilir.

Henüz yorum yok.

Henüz yorum yok.