- Büyük dil modellerinin (Large Language Models, LLMs) dağıtıma alınmasındaki zorlukları ele alan bir yazı: boyutları ve hesaplama gereksinimleri nedeniyle, birçok araştırma ekibi için ve özellikle düşük gecikmeli performans gerektiren uygulamalarda bunlara erişim zor
- Bu zorlukları aşmak için, ince ayar veya distilasyon kullanılarak eğitilmiş küçük uzman modeller sıklıkla dağıtıma alınıyor. Ancak bu yöntemlerin de insan tarafından üretilmiş etiketlere ya da büyük miktarda etiketsiz veriye ihtiyaç duyması gibi kendi sınırlamaları var
- Yazarlar, "adım adım distilasyon" adlı yeni bir mekanizma tanıtıyor; bu sayede standart ince ayar veya distilasyon yaklaşımlarının gerektirdiğinden çok daha az eğitim verisiyle küçük, göreve özel modeller eğitilebiliyor
- Bu mekanizma, kıyaslama veri kümelerindeki örneklerin yalnızca %80'ini kullanarak 770M parametreli bir T5 modelinin, few-shot prompting uygulanmış 540B PaLM modelini geride bırakmasını sağlıyor ve standart yaklaşımların gerektirdiğine kıyasla eğitim verisinde çok daha az ihtiyaçla 700 kattan fazla model boyutu küçülmesi gösteriyor
- Adım adım distilasyonun temel fikri, LLM'lerden bilgi açısından zengin doğal dilde gerekçeler çıkarmak ve bunları küçük modeli daha verimli eğitmek için kullanmak
- Bu süreç iki ana adımdan oluşuyor: ilk olarak, few-shot CoT prompting kullanarak LLM'lerden gerekçeler çıkarılıyor; ikinci olarak ise eğitim süreci çok görevli bir problem olarak kurgulanarak bu gerekçeler küçük modelin eğitimine dahil ediliyor
- Yazarlar, üç farklı NLP görevi üzerindeki dört kıyaslama veri kümesinde deneyler yürüttü ve adım adım distilasyon yönteminin, standart ince ayara kıyasla çok daha az eğitim verisi kullanarak daha iyi performans sağladığını buldu
- Adım adım distilasyon mekanizması, Google Cloud Platform hizmeti olan Vertex AI üzerinde özel önizleme olarak kullanılabiliyor
- Bu araştırma Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee ve Tomas Pfister tarafından yürütüldü.
1 yorum
Hacker News görüşleri