Çoklu token tahmini, büyük dil modellerinin örnek verimliliğini ve performansını artırıyor.

(arxiv.org)

2 puan yazan brainer 2024-05-01 | Henüz yorum yok. | WhatsApp'ta paylaş

• Bu makale, büyük dil modeli (LLM) için çoklu token tahmini olarak adlandırılan yeni bir eğitim yöntemi önerir; bu yaklaşım modelin birden fazla gelecek tokeni aynı anda tahmin etmesini içerir. Yazarlar, bu yöntemin daha yüksek örnek verimliliğine yol açtığını, yani modelin verilen miktardaki eğitim verisinden daha etkili biçimde öğrenebildiğini iddia ediyor.

• Kod üretimi ve doğal dil işleme dahil çeşitli downstream görevler için yöntemin etkinliğini gösterirler ve çoklu token tahmininin güçlü bir referans düzeyi, yani baselin'i birkaç yüzde puanı sürekli olarak aştığını gösterirler. Özellikle 13B parametreli modelleri, HumanEval ve MBPP gibi zorlu kodlama kıyaslamalarında kayda değer iyileşmeler sağlar.

• Artan performansın yanı sıra, çoklu token tahmini hesaplama avantajları da sunar. 4 token ile eğitilen modeller, toplu boyut ne kadar büyük olursa olsun çıkarım hızını en fazla 3 kata kadar artırarak gerçek uygulamalarda daha verimli hale gelir.

Çoklu token tahmini, büyük dil modellerinin örnek verimliliğini ve performansını artırıyor.

İlgili okumalar

Henüz yorum yok.