Çoklu Token Tahmini ile Daha İyi Performans ve Daha Hızlı Çıkarım: Large Language Models
(arxiv.org)Çoklu Token Tahmini ile Daha İyi Büyük Dil Modeli Eğitimi
- GPT ve Llama gibi büyük dil modelleri bir sonraki token tahmini kaybıyla eğitilir
- Bu çalışmada, dil modelini tek seferde birden fazla gelecek tokenı tahmin etmesi için eğitmenin örnek verimliliğini artırdığı öneriliyor
- Özellikle, eğitim korpusunun her konumunda, paylaşılan model gövdesi üzerinde çalışan n adet bağımsız çıktı başlığıyla bir sonraki n tokenın tahmin edilmesi modele istenir
- Çoklu token tahmini yardımcı bir eğitim görevi olarak ele alındığında, kod ve doğal dil modelleri için eğitim süresinde ek yük getirmeden alt görev yeteneklerinin geliştiği ölçülür
Model büyüdükçe daha etkili ve çoklu epoch eğitiminde de cazip
- Bu yöntem model büyüdükçe daha etkilidir ve birden fazla epoch boyunca eğitimde de avantajını korur
- Özellikle kodlama gibi üretim benchmarklarında avantajı belirgin; bu model güçlü bir baz modelden sürekli olarak birkaç yüzde puanı daha yüksek performans gösterir
- 13B parametreli model, HumanEval'de %12, MBPP'de %17 daha fazla sorunu çözüyor
İndüksiyon başlığı geliştirmesi ve algoritmik çıkarım yeteneğine faydalı
- Küçük ölçekli algoritmik görevler üzerine yapılan deneyler, çoklu token tahmininin indüksiyon başlığı geliştirmesine ve algoritmik çıkarım yeteneğine fayda sağladığını gösteriyor
- Ek bir avantaj olarak, 4-token tahminiyle eğitilen model büyük batch boyutlarında bile çıkarım hızını en fazla 3 kat artırıyor
GN⁺ Görüşü
-
Dil modellerinin verimliliğini artırmak için yeni bir eğitim yöntemi öneren ilginç bir çalışma. Özellikle büyük modellerde performans artışının daha belirgin olması dikkat çekici
-
Çoklu token tahmininin uzun menzilli bağımlılık öğrenimine etkisini görmek için ek deneylerin yapılması iyi olurdu. Örneğin cümleler arası referans çözümü gibi uzun bağımlılık görevlerindeki performans değişiminin incelenmesi de anlamlı olurdu
-
Kodlama veya matematik problem çözme gibi belirli alanlardaki üretim görevlerinde performans artışının büyük olduğu söyleniyor; ancak genel doğal dil anlama veya QA görevlerinde hangi etkiyi yaratacağı merak ediliyor. Farklı benchmarklardaki deney sonuçlarının tamamlayıcı olarak sunulması iyi olurdu
-
Çıkarım hızındaki artış, pratik açıdan büyük bir avantaj olabilir. Özellikle gerçek zamanlılık gereken chatbot veya soru-cevap sistemlerine uygulanması uygun görünüyor
-
Anthropic'in Constitutional AI'si veya OpenAI'ın InstructGPT'si gibi RLHF temelli modellerin öne çıktığı bir dönemde, bu çalışma yalnızca denetimli öğrenmeyle dil modelinin performansını artırabilecek bir yol sunduğu için önemli görünüyor. Tabii ki etik değer hizalaması gibi meseleler hâlâ çözülmeyi bekleyen görevler olarak kalıyor, ancak eğitim verimliliği açısından yeterince rekabetçi bir yaklaşım gibi duruyor
1 yorum
Hacker News Yorumları
Özet: