2 puan yazan GN⁺ 2024-05-09 | 1 yorum | WhatsApp'ta paylaş

Consistency Large Language Models (CLLM)

  • LLM’ler geleneksel olarak, tek bir token’ı art arda decode eden sequential decoder’lar olarak görülüyordu
  • Bu blog yazısı, önceden eğitilmiş LLM’lerin verimli paralel decoder’lara kolayca dönüştürülebileceğini gösteriyor
  • Consistency Large Language Models (CLLM), her çıkarım adımında n token’lık dizileri verimli biçimde decode ederek çıkarım gecikmesini azaltabilen yeni bir paralel decoder ailesi
  • CLLM, insanların kelimeleri tek tek söylemeden önce zihinlerinde tam bir cümle kurmalarına benzer bilişsel süreci taklit ediyor ve yalnızca önceden eğitilmiş bir LLM’in fine-tuning yapılmasıyla etkili biçimde eğitilebiliyor
  • CLLM, rastgele başlatılmış n token’lık dizileri mümkün olan en az adımda autoregressive (AR) decoding sonucu ile aynı çıktıya eşleyecek şekilde paralel decoding yapacak biçimde eğitiliyor
  • Deney sonuçlarına göre CLLM, mevcut AR decoder’lara kıyasla 2,4 kat ile 3,4 kat arasında üretim hızı artışı gösterdi ve Medusa2 ya da Eagle gibi hızlı çıkarım teknikleriyle benzer veya daha iyi performans sergiledi
  • CLLM, ek bellek maliyeti olmadan bu performans artışını sağlayabiliyor

Jacobi decoding’in arka planı ve sınırlamaları

  • LLM’ler AR decoding ile token’ları tek tek ürettiği için, uzun yanıtlar üretirken yüksek gecikme ortaya çıkıyor
  • Jacobi decoding, Jacobi ve Gauss-Seidel doğrusal olmayan denklem çözüm yöntemlerinden türemiştir ve greedy sampling kullanan AR üretimle eşdeğer olduğu kanıtlanmıştır
  • Jacobi decoding, sıralı üretim sürecini Jacobi iterasyonuna dayalı, n değişkenli n doğrusal olmayan denklem sistemi olarak yeniden formüle ederek paralel işlemeyi mümkün kılar
  • Her iterasyon adımında bir veya daha fazla doğru token tahmin edilebildiği için AR decoding’i potansiyel olarak hızlandırabilir
  • Ancak pratikte, AR ile eğitilmiş LLM’ler önceki token’larda hata olduğunda doğru token’ı neredeyse hiç üretemediğinden, Jacobi iterasyonlarının çoğunda n token’lık dizi için yalnızca tek bir düzeltme elde edilir ve bu da daha uzun Jacobi trajectory’leri üretir
  • Lookahead decoding veya speculative decoding bu verimsizliği azaltmaya çalışsa da çıkarım sırasında ek bellek maliyeti doğurur; CLLM’de ise böyle bir maliyet yoktur

CLLM’in eğitim yöntemi

  • CLLM eğitimi genel olarak iki bölümden oluşur: Jacobi trajectory hazırlığı ve consistency ile AR loss optimizasyonu
  • Jacobi trajectory hazırlığı aşamasında, tam yanıt dizisindeki l token üretilene kadar dizi n’erli parçalar halinde kesilir ve sıralı olarak Jacobi decoding uygulanır; her trajectory’de üretilen dizi tek bir veri öğesi olarak kabul edilir
  • Eğitim sırasında consistency loss ve AR loss birlikte optimize edilir; consistency loss birden fazla token’ın tek seferde tahmin edilmesini garanti ederken, AR loss CLLM’in hedef LLM’den sapmamasını sağlayarak üretim kalitesini korur
  • Global consistency (GC) loss, Jacobi trajectory’sinin rastgele bir noktası ile sabit nokta arasındaki mesafeyi en aza indirerek CLLM’i trajectory’nin herhangi bir noktasından sabit noktayı tahmin etmeye teşvik eder
  • Local consistency (LC) loss, Jacobi trajectory’sindeki komşu durumların aynı çıktıyı üretmesini teşvik eder
  • AR loss, hedef LLM’in üretim sonuçlarına dayalı geleneksel AR loss’u içerir; amaç, CLLM’in hedef LLM’in dağılımından sapmamasıdır

Deney sonuçları

  • Deneyler; Spider (text-to-SQL), Human-Eval (Python kod tamamlama), GSM8k (matematik) gibi uzmanlaşmış alan görevlerinin yanı sıra MT-bench gibi geniş kapsamlı açık uçlu diyalog benchmark’larını içeriyordu
  • CLLM, hedef modele kıyasla en büyük hız artışını gösterdi ve çıkarım sırasında ek maliyet olmadan Medusa2’ye benzer ya da daha iyi hızlanma sağladı
  • MT-bench’te CLLM, Medusa2 ile birleştirildiğindekiyle neredeyse aynı hız artışını elde etti, ancak daha yüksek uyarlanabilirlik ve bellek verimliliği sundu
  • CLLM’in fine-tuning maliyeti makul düzeydeydi; veri kümesi büyük olduğunda bile Jacobi trajectory üretimi için veri kümesinin yaklaşık %10’unu kullanarak yaklaşık 2,5 kat hız artışı elde edilebildi
  • CLLM, fast forwarding olgusu sayesinde bir Jacobi iterasyonunda birden çok ardışık token’ı doğru biçimde tahmin edebiliyor
  • CLLM, önceki token’larda hata olsa bile doğru token’ı önceden tahmin edip değişmeden koruyabilen stationary token yeteneği gösteriyor
  • CLLM, eğitim yoluyla collocation gibi temel dil kavramlarını öğreniyor; bu sayede Jacobi trajectory’sinin herhangi bir noktasında yapıyı çıkarabiliyor ve iterasyon adımlarını en aza indirmek için birden fazla kelimeyi aynı anda tahmin edebiliyor

GN⁺ görüşü

  • CLLM, mevcut LLM’lerin AR decoding yaklaşımındaki uzun gecikme sorununu Jacobi decoding’den yararlanarak etkili biçimde çözüyor gibi görünüyor. Özellikle ek bellek maliyeti olmadan paralelleştirilmiş decoding ile hız artışı sağlaması dikkat çekici

  • CLLM’in eğitim yöntemi, mevcut LLM’lerin consistency loss ile fine-tuning edilmesine dayandığı için görece basit görünüyor; ancak dilin önemli özelliklerinden biri olan collocation’ı öğrenerek paralel decoding performansını büyük ölçüde artırması açısından anlamlı görünüyor

  • Bununla birlikte, CLLM greedy sampling varsayımına dayandığından daha çeşitli decoding stratejilerinde de iyi çalışıp çalışamayacağına dair ek araştırma gerekiyor. Ayrıca deneyler şu anda İngilizce ile sınırlı olduğu için farklı dillere genellenebilirliğinin de doğrulanması gerekiyor

  • CLLM, LLM yanıt hızını artırmak için pratik bir yaklaşım gibi görünüyor. Web arama veya chatbot gibi gerçek zamanlılık gerektiren görevlerde iyi uygulanabilir gibi duruyor

  • Kişisel olarak, CLLM’in consistency eğitim yaklaşımının GPT benzeri LLM’lerin yanı sıra görüntü üretim modelleri veya konuşma sentezi modelleri gibi diğer üretici modellere de uygulanabileceğini düşünüyorum. CLLM fikrinin gelecekte çeşitli üretici modellerin verimliliğini artırmaya katkı sağlaması umuluyor

1 yorum

 
GN⁺ 2024-05-09
Hacker News görüşü
  • Serbest çizim derslerinde süre sınırı koyup tekrar tekrar çizim pratiği yapmak, çizim becerisini büyük ölçüde geliştirir. Hızlı çizim pratiği, oranları ve konturları doğru yakalama becerisini aslında güçlendirir.
  • Jacobi decoding, greedy autoregressive decoding ile aynıdır; ancak pratikte tekrarları ve aşırı genel yanıtları önlemek için sampling temperature değerini 0'ın üzerinde ayarlamak gerekir.
  • Yakında model eğitiminin gerekli olmadığını fark edeceğiz. İyi indeksleme ve sampling yeterli. LLM, temelde güçlü bir NLP arayüzüne sahip bir veri kümesi veritabanıyla eşdeğerdir.
  • CLLM makalesindeki inference performansı artışı dikkat çekici. Fine-tuning maliyeti makul düzeyde (ön eğitim maliyetinin yaklaşık %0,01'i) ve performans artışı da oldukça tutarlı.
  • Jacobi trajectories, yüksek temperature yollarını dışladığı için veri alma açısından olumlu olabilir, ancak yaratıcılığı en üst düzeye çıkarmak açısından olumsuz olabilir.
  • LLM'lerin aynı prompt'a neden deterministik olarak yanıt vermediğiyle ilgili "AI uzmanına sor" gibi bir özellik olsa güzel olurdu.
  • Groq(https://groq.com/)'un hız artışının bu yöntemden mi kaynaklandığını, yoksa başka bir yöntem mi kullandığını merak ediyorum.