3 puan yazan GN⁺ 2023-09-24 | 1 yorum | WhatsApp'ta paylaş
  • Büyük dil modellerinin (Large Language Models, LLMs) dağıtıma alınmasındaki zorlukları ele alan bir yazı: boyutları ve hesaplama gereksinimleri nedeniyle, birçok araştırma ekibi için ve özellikle düşük gecikmeli performans gerektiren uygulamalarda bunlara erişim zor
  • Bu zorlukları aşmak için, ince ayar veya distilasyon kullanılarak eğitilmiş küçük uzman modeller sıklıkla dağıtıma alınıyor. Ancak bu yöntemlerin de insan tarafından üretilmiş etiketlere ya da büyük miktarda etiketsiz veriye ihtiyaç duyması gibi kendi sınırlamaları var
  • Yazarlar, "adım adım distilasyon" adlı yeni bir mekanizma tanıtıyor; bu sayede standart ince ayar veya distilasyon yaklaşımlarının gerektirdiğinden çok daha az eğitim verisiyle küçük, göreve özel modeller eğitilebiliyor
  • Bu mekanizma, kıyaslama veri kümelerindeki örneklerin yalnızca %80'ini kullanarak 770M parametreli bir T5 modelinin, few-shot prompting uygulanmış 540B PaLM modelini geride bırakmasını sağlıyor ve standart yaklaşımların gerektirdiğine kıyasla eğitim verisinde çok daha az ihtiyaçla 700 kattan fazla model boyutu küçülmesi gösteriyor
  • Adım adım distilasyonun temel fikri, LLM'lerden bilgi açısından zengin doğal dilde gerekçeler çıkarmak ve bunları küçük modeli daha verimli eğitmek için kullanmak
  • Bu süreç iki ana adımdan oluşuyor: ilk olarak, few-shot CoT prompting kullanarak LLM'lerden gerekçeler çıkarılıyor; ikinci olarak ise eğitim süreci çok görevli bir problem olarak kurgulanarak bu gerekçeler küçük modelin eğitimine dahil ediliyor
  • Yazarlar, üç farklı NLP görevi üzerindeki dört kıyaslama veri kümesinde deneyler yürüttü ve adım adım distilasyon yönteminin, standart ince ayara kıyasla çok daha az eğitim verisi kullanarak daha iyi performans sağladığını buldu
  • Adım adım distilasyon mekanizması, Google Cloud Platform hizmeti olan Vertex AI üzerinde özel önizleme olarak kullanılabiliyor
  • Bu araştırma Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee ve Tomas Pfister tarafından yürütüldü.

1 yorum

 
GN⁺ 2023-09-24
Hacker News görüşleri
  • Boyut ve kullanılabilirlik arasındaki en iyi denge nedeniyle, daha küçük uzman modellerin çoğu uygulamaya hakim olması bekleniyor.
  • T5 kullanan damıtılmış modeller, encoder-decoder mimarisinin hâlâ ilgili olabileceğini öne sürüyor.
  • Yaklaşım aşırı karmaşık görünmediğinden, Large Language Models (LLMs) alanında hâlâ keşfedilecek çok şey olduğunu düşündürüyor.
  • LLM'lerin geleceği, bu tarzda eğitilmiş uzman modellerin bir karışımını içerebilir.
  • LLM, Machine Learning (ML) ve Artificial Intelligence (AI) alanlarındaki faaliyet ve ilerleme düzeyi etkileyici.
  • Nvidia gibi donanımlar pahalı olduğunda, bu tür optimizasyonlar değerlidir.
  • En etkili modellerin multimodal olması ve dikkatle özelleştirilmiş bir temel müfredatla eğitilmesi muhtemel.
  • LLM'lerin eğitim verisinin neden damıtılmış ve göreve özgü modellerden daha az olduğuna dair bir soru var.
  • Reinforcement Learning from Human Feedback (RLHF)'in, son teknoloji LLM'ler kadar iyi performans göstermek için daha küçük modellerde gerekli olup olmayacağına dair spekülasyonlar var.
  • Büyük LLM'lerde kapasitenin önemli bir kısmının kullanılmadan kalıp kalmadığı ya da küçük dil modellerinin yalnızca akıl yürütme görevlerini taklit edip etmediği belirsiz.
  • 144GB'a kadar kullanılabilir GPU belleğini destekleyen Mac Studio, LLM hizmetleri alanında kullanılabilir.
  • Facebook'un kullanıcıların tüm sohbet geçmişi üzerinde LLM eğitip eğitemeyeceğine dair bir öneri var.