1 puan yazan GN⁺ 2024-05-02 | 1 yorum | WhatsApp'ta paylaş

Çoklu Token Tahmini ile Daha İyi Büyük Dil Modeli Eğitimi

  • GPT ve Llama gibi büyük dil modelleri bir sonraki token tahmini kaybıyla eğitilir
  • Bu çalışmada, dil modelini tek seferde birden fazla gelecek tokenı tahmin etmesi için eğitmenin örnek verimliliğini artırdığı öneriliyor
  • Özellikle, eğitim korpusunun her konumunda, paylaşılan model gövdesi üzerinde çalışan n adet bağımsız çıktı başlığıyla bir sonraki n tokenın tahmin edilmesi modele istenir
  • Çoklu token tahmini yardımcı bir eğitim görevi olarak ele alındığında, kod ve doğal dil modelleri için eğitim süresinde ek yük getirmeden alt görev yeteneklerinin geliştiği ölçülür

Model büyüdükçe daha etkili ve çoklu epoch eğitiminde de cazip

  • Bu yöntem model büyüdükçe daha etkilidir ve birden fazla epoch boyunca eğitimde de avantajını korur
  • Özellikle kodlama gibi üretim benchmarklarında avantajı belirgin; bu model güçlü bir baz modelden sürekli olarak birkaç yüzde puanı daha yüksek performans gösterir
  • 13B parametreli model, HumanEval'de %12, MBPP'de %17 daha fazla sorunu çözüyor

İndüksiyon başlığı geliştirmesi ve algoritmik çıkarım yeteneğine faydalı

  • Küçük ölçekli algoritmik görevler üzerine yapılan deneyler, çoklu token tahmininin indüksiyon başlığı geliştirmesine ve algoritmik çıkarım yeteneğine fayda sağladığını gösteriyor
  • Ek bir avantaj olarak, 4-token tahminiyle eğitilen model büyük batch boyutlarında bile çıkarım hızını en fazla 3 kat artırıyor

GN⁺ Görüşü

  • Dil modellerinin verimliliğini artırmak için yeni bir eğitim yöntemi öneren ilginç bir çalışma. Özellikle büyük modellerde performans artışının daha belirgin olması dikkat çekici

  • Çoklu token tahmininin uzun menzilli bağımlılık öğrenimine etkisini görmek için ek deneylerin yapılması iyi olurdu. Örneğin cümleler arası referans çözümü gibi uzun bağımlılık görevlerindeki performans değişiminin incelenmesi de anlamlı olurdu

  • Kodlama veya matematik problem çözme gibi belirli alanlardaki üretim görevlerinde performans artışının büyük olduğu söyleniyor; ancak genel doğal dil anlama veya QA görevlerinde hangi etkiyi yaratacağı merak ediliyor. Farklı benchmarklardaki deney sonuçlarının tamamlayıcı olarak sunulması iyi olurdu

  • Çıkarım hızındaki artış, pratik açıdan büyük bir avantaj olabilir. Özellikle gerçek zamanlılık gereken chatbot veya soru-cevap sistemlerine uygulanması uygun görünüyor

  • Anthropic'in Constitutional AI'si veya OpenAI'ın InstructGPT'si gibi RLHF temelli modellerin öne çıktığı bir dönemde, bu çalışma yalnızca denetimli öğrenmeyle dil modelinin performansını artırabilecek bir yol sunduğu için önemli görünüyor. Tabii ki etik değer hizalaması gibi meseleler hâlâ çözülmeyi bekleyen görevler olarak kalıyor, ancak eğitim verimliliği açısından yeterince rekabetçi bir yaklaşım gibi duruyor

1 yorum

 
GN⁺ 2024-05-02
Hacker News Yorumları

Özet:

  • LLM'deki farklı terimlerin (veri, ön eğitim, eğitim, çıkarım, uzman karışımı, RAG vb.) hangi bağlamda kullanıldığını anlatan anlaşılır bir açıklamaya ihtiyaç var
  • Öz-tafsilatlı kod çözme (self-speculative decoding), tahmin edilen etiket dizisini yeniden ağa besleyerek yalnızca eşleştiği noktaya kadar bu tahminleri korumayı sağlar; böylece performans kaybı olmadan hızı artırabilir
  • LLM, şu anda çıktı token sayısına kadar olan tüm token kombinasyonları için olasılık dağılımını hesaba katmıyor; eğer bu hesaba katılsa daha iyi performans göstermesi beklenir
  • LLM'nin çapraz entropi kayıp fonksiyonunu değiştirip eğitim verisinde yalnızca n'inci gelecek token'ı dikkate alacak şekilde ayarlamak ve n'e göre LLM performansını analiz etmek ilginç bir araştırma konusu olabilir
  • LLM'nin ürettiği tokenların durumunu bir sonraki yanıtta nasıl kullanabileceğine dair bir yol olup olmadığını merak ediyor
  • Tüm cümle anlamını kodlayan bir vektörü tahmin edecek şekilde LLM'yi eğitmenin ne olacağını soruyor
  • Makalenin 5.2. bölümü biraz yetersiz; özellikle H(Y|X)'i atmanın açıklaması net değil
  • LLM'nin sonraki N token için küçük bir PixelCNN benzeri modeli üretip gelecekteki tokenlar için koşullu olasılık hesaplamasını nasıl açıklayacağını sağlayan bir yol düşünülebilir
  • Sadece sonraki n token'ı değil de 128, 512, 2048 gibi daha uzak gelecekteki tokenları da tahmin ederek uzun vadeli konuşma yapısını öğrenmesini nasıl sağlar diye merak ediyor
  • Birden fazla token tahmin edilirken birbirini etkilemesi gibi bir durum oluşursa bunun nasıl çözüleceği tartışılıyor