Daha Az Eğitim Verisi ve Daha Küçük Modellerle Daha Büyük Dil Modellerini Geride Bırakan Teknik

(blog.research.google)

3 puan yazan GN⁺ 2023-09-24 | 1 yorum | WhatsApp'ta paylaş

Büyük LLM'ler yalnızca few-shot ile yeni görevleri çözebilir, ancak sunum maliyetleri yüksek olduğundan Google Cloud AI ekibi, küçük ve göreve özel modellere doğal dil gerekçelerini (rationale) de birlikte öğreten distilling step-by-step yöntemini öneriyor
Bu yöntem, few-shot Chain-of-Thought (CoT) ile LLM'in ara akıl yürütmesini çıkarıp, T5 modelinin etiket tahmini ve gerekçe üretimini birlikte öğrendiği çok görevli öğrenmeye dönüştürüyor
Deneylerde referans LLM olarak 540B PaLM, downstream model olarak T5 kullanılarak e-SNLI, ANLI, CQA ve SVAMP üzerinde doğal dil çıkarımı, sağduyu soru-cevap ve aritmetik sözel problem görevleri değerlendirildi
e-SNLI'da toplam verinin yalnızca %12,5'i ile standart ince ayardan daha iyi performans elde edildi; ANLI'da ise 770M T5, verinin %80'iyle 540B PaLM few-shot performansını aştı ve model boyutunu 700 kattan fazla küçülttü
Küçük model dağıtımı ile eğitim verisi toplama maliyeti arasındaki ödünleşimi azaltan bir yaklaşım olup Vertex AI üzerinde private preview olarak sunuluyor

LLM dağıtım maliyeti ve küçük model eğitiminin sınırları

LLM'ler zero-shot ve few-shot prompting ile daha önce görmedikleri yeni görevleri işleyebilir, ancak gerçek servislerde model boyutu büyük bir kısıt haline gelir
- 175B ölçeğinde tek bir LLM'i sunmak için özel altyapıda en az 350 GB GPU belleği gerekir
- O dönemdeki en yeni LLM'ler 500B parametreyi aşan ölçeklerde yapılandırılıyordu
Pratikte çoğu zaman daha küçük, göreve özel modeller dağıtılır ve genellikle iki yöntem kullanılır
- İnce ayar (fine-tuning): BERT veya T5 gibi önceden eğitilmiş küçük modelleri, insanlar tarafından etiketlenmiş downstream verilerle günceller
- Damıtma (distillation): Küçük modeli, daha büyük bir LLM'in ürettiği etiketlerle eğitir
Her iki yöntemde de maliyet yükü devam eder
- İnce ayar, insan tarafından oluşturulmuş etiketler gerektirdiği için maliyetli ve emek yoğundur
- Damıtma, büyük miktarda etiketsiz veri gerektirir; bu veriyi toplamak da zor olabilir

Distilling step-by-step'in temel fikri

Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes, model boyutu ile eğitim verisi toplama maliyeti arasındaki ödünleşimi azaltmayı amaçlayan bir yöntemdir
distilling step-by-step, LLM'den doğal dil gerekçeleri, yani ara akıl yürütme adımlarını çıkarıp küçük model eğitiminde ek denetim sinyali olarak kullanır
Doğal dil gerekçesi, giriş sorusu ile çıktı yanıtı arasındaki bağlantıyı ortaya koyar
- Örneğin bir odanın uzunluğu ve genişliği ile eldeki halı alanı verildiğinde LLM, “Area = length * width” gibi bir ara gerekçe üretebilir
- Bu tür gerekçeler, küçük modelin normalde çok daha fazla veriden öğrenmesi gerekebilecek görev bilgisini içerebilir
Yalnızca etiketleri öğrenmek yerine etiket ve gerekçeyi birlikte öğrenerek küçük modelin görevi daha az veriyle kavramasını sağlar

İki aşamalı eğitim süreci

İlk aşama, few-shot CoT prompting ile LLM'den gerekçeleri çıkarma sürecidir
- Her görev için giriş, gerekçe ve çıktıdan oluşan üç öğeli örnekler LLM prompt'una eklenir
- LLM bu örnekleri izleyerek yeni girişler için gerekçe üretir
Sağduyu soru-cevap örneğinde “Sammy wanted to go to where the people are” sorusu ve seçenekler verilir
- Doğru yanıt “(a) populated areas”tır
- Gerekçe, “çok sayıda insanın olduğu bir yer olmalı ve seçenekler içinde yalnızca populated areas çok sayıda insanın bulunduğu yerdir” bağlantısını sağlar
İkinci aşamada çıkarılan gerekçeler küçük model eğitimine dahil edilir
- Standart etiket tahmini görevine ek olarak yeni bir gerekçe üretme görevi öğretilir
- İki görevi ayırt etmek için model girdisinin başına [label] veya [rationale] gibi görev önekleri eklenir
- Gerekçe üretme görevi, modelin ara akıl yürütme adımları oluşturmasını öğretecek şekilde eğitir ve sonuçta etiket tahminini daha iyi yapmasını teşvik eder

Deney kurulumu ve karşılaştırma hedefleri

Referans LLM 540B PaLM'dir
Göreve özel downstream model olarak T5 modeli kullanılır
CoT prompting için mümkün olduğunda mevcut CoT prompt'ları kullanılır; yeni veri kümeleri için örnekler doğrudan oluşturulur
Değerlendirme, 3 NLP görevi kapsamındaki 4 benchmark üzerinde yapılır
- e-SNLI, ANLI: doğal dil çıkarımı
- CQA: sağduyu soru-cevap
- SVAMP: aritmetik sözel problemler
Karşılaştırma ölçütleri iki koldan oluşur
- Few-shot prompt'lu LLM ile karşılaştırmak için 540B PaLM'in few-shot CoT prompting'i kullanılır
- Standart ince ayar ve standart damıtma da karşılaştırmaya dahil edilir; blog metni standart ince ayar karşılaştırmasına odaklanır

Daha az eğitim verisiyle standart ince ayarı geride bırakma

distilling step-by-step, standart ince ayardan çok daha az eğitim verisiyle daha iyi performans gösterir
e-SNLI'da toplam veri kümesinin yalnızca %12,5'i kullanılarak, tüm veriyle eğitilen standart ince ayardan daha iyi performans elde edildi
Diğer veri kümelerinde de gereken veri boyutu azaldı
- ANLI: veri kümesi boyutunda %75 azalma
- CQA: veri kümesi boyutunda %25 azalma
- SVAMP: veri kümesi boyutunda %20 azalma
Bu karşılaştırma, farklı boyutlardaki insan etiketli veri kümeleri üzerinde 220M T5 modeli kullanılarak yapıldı

Daha küçük dağıtım modeliyle PaLM referansını aşma

distilling step-by-step, few-shot CoT prompt kullanılan LLM'den çok daha küçük bir modelle daha iyi performans gösterir
e-SNLI'da 220M T5 modeliyle 540B PaLM'den daha iyi performans elde edildi
ANLI'da 770M T5 modeliyle 540B PaLM'den daha iyi performans gösterildi
- Bu model PaLM'den 700 kattan fazla daha küçüktür
- Aynı 770M T5 modelinin yalnızca standart ince ayarla PaLM performansına ulaşması zordur
Bu sonuçlar, küçük model boyutu ile LLM referans performansını aşmayı aynı anda gösterir

Veri ve model boyutunu aynı anda azaltan sonuç

ANLI'da distilling step-by-step, 770M T5 ve toplam verinin yalnızca %80'i ile 540B PaLM'in few-shot performansını aştı
Aynı koşullarda standart ince ayar, toplam verinin %100'ünü kullansa bile PaLM performansını yakalayamadı
Kaba bir arama yoluyla, LLM'in few-shot CoT performansını aşmak için gereken minimum T5 model boyutu ve minimum insan etiketli örnek sayısı belirlendi
Sonuç olarak bu yöntem, LLM performansını aşmak için gereken dağıtım modeli boyutunu ve eğitim verisi miktarını aynı anda azaltır

Sunum biçimi

distilling step-by-step, Vertex AI üzerinde private preview olarak sunuluyor
Kullanmak isteyenlerin Google Cloud Project numarasını ve kullanım senaryosu özetini ekleyerek vertex-llm-tuning-preview@google.com adresiyle iletişime geçmesi öneriliyor

1 yorum

GN⁺ 2023-09-24

Hacker News yorumları

Daha küçük uzman modellerin çoğu uygulamaya hâkim olacağını düşünüyorum. Boyut ile kullanılabilirlik arasında bir optimum nokta ve hassas bir denge var; yazıda gösterilenler gibi çeşitli mekanizmalar da bu optimum noktayı bulup hayata geçirecek gibi görünüyor.
- Büyük genel amaçlı modeller, birden fazla küçük uzman modelden ve hangi alana özgü modele sorulacağına karar veren bir aracı modelden oluşabilir.
Damıtma modeli olarak T5 kullanılmış olması ilginç. Encoder-decoder mimarisinin gözden düştüğünü düşünüyordum ama hâlâ güncelliğini koruyor gibi.
Ayrıca bu fikrin hayal edilemeyecek kadar dâhiyane ya da kalıpların dışında olmaması da ilginç. Hâlâ keşfedilecek çok kolay kazanım olduğunu ve büyük dil modellerinin geleceğinin de belirlenmiş olmadığını gösteriyor. Gerçek çözüm, bu şekilde eğitilmiş uzmanların bir karışımı olabilir. Doğru fikir kombinasyonunu bulunca kutsal kâseye yakın bir hedefin ulaşılabilir görünmesi heyecan verici.
- T5 ailesi harika. FastChat-T5’in metin üretim kalitesi şaşırtıcı; örneğin arama destekli üretim sohbet botları için de iyi ve CPU’da bile gerçek zamanlı sohbet mümkün olacak kadar hızlı çalıştırılabiliyor.
- Bahsedilen makale mayıs ayında gönderilmiş. Encoder-decoder mimarisi multimodal modellerde hâlâ oldukça mantıklı görünüyor.
  Hâlâ pek çok kolay kazanım var. Düşünce zinciri, düşünce ağacı, düşünce grafı, self-ask, self-critique, self-plan, self-reflect vb. onlarca varyasyon görmüş gibiyim.
- Encoder-decoder mimarisinin neden gözden düştüğünü düşündüğünü merak ediyorum.
Büyük dil modeli/makine öğrenimi/yapay zeka alanındaki faaliyet ve ilerleme miktarı gerçekten muazzam. Özellikle Nvidia gibi donanımların çok pahalı olduğu bir ortamda bu tür optimizasyonlar özellikle değerli.
Bu, https://arxiv.org/abs/2212.08410 ile aynı şey değil mi; sadece 1 yıl sonra çıkmış gibi.
- İyileşme miktarı etkileyici ama GSM8K %22 nihai sonuç olarak pek dikkat çekici değil.
Araştırmacı değilim ama en etkili modelin multimodal olacağı ve temel müfredatı dikkatle tasarlanarak eğitilmiş bir model olacağı yönünde hep bir sezgim vardı.
Sistemin etkili ve doğru biçimde genelleme yapması için gerekli temel yapıları ve becerileri edinip korumasını garanti etmek isterim. Bunları korurken bol miktarda çeşitli veri vererek istisnaları ve becerilerin nasıl birleştirileceğini öğrenmesini sağlamak gibi. Ancak temel beceri ve bilgilerin sonuna kadar garanti edilmesi için bir yöntem gerekir. Makalede yaptıkları gibi yalnızca nihai yanıtı değil, o anlama ya da manipülasyon sürecini de çıktılatmak bunu mümkün kılabilir.
Örneğin kod üretim modeli için, istenen programın durum makinesi simülasyonunu çıktı olarak üretmesi istenebilir.
- Multimodalin gidilecek yol olduğuna katılıyorum ama müfredatın mutlaka dikkatle tasarlanması gerektiğini beklemek için hiç sezgisel bir neden yok. https://gwern.net/scaling-hypothesis ile karşılaştırılabilir.
- Okul müfredatı fikrini düşününce, eğitim verisinin sırasının fark yaratıp yaratmadığını merak ediyorum. Basitten karmaşığa mı verildiğine, yoksa tersine mi verildiğine göre değişebilir. Gradient descent kesinlikle daha iyi ya da daha kötü farklı yerel minimumlara ulaşabilir, değil mi?
İlk görselde neden büyük dil modelinin eğitim verisi miktarının damıtılmış model ve göreve özgü modelden daha az olduğunu merak ediyorum.
Yoksa yazarlar büyük dil modeli için gereken eğitim verisi miktarını, damıtma/göreve özgü model için gereken eğitim verisinin içine katarak mı hesapladı?
https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEj...
- Evet. Sorunu çözmek için doğrudan toplamanız gereken veri miktarını sayıyorlar.
  Önceden eğitilmiş bir büyük dil modelini alabilirsiniz; bu durumda benim toplamam gereken veri, o modeli ince ayar yapmak için gereken veridir.
O devasa büyük dil modellerinde kullanılmayan çok fazla kapasite mi kalıyor, yoksa küçük dil modeli çıkarım görevini sadece taklit mi ediyor? Taklidi taklit etmek gibi mi?
- Gerçek ile taklit arasında özsel bir ayrım yok.
  Devasa büyük dil modellerinin eğitildiği veri kümelerinde ilerlemeyi engelleyen çok fazla gürültü var. Ayrıca çok fazla alakasız bilgi de içeriyor; modelin bunları da öğrenmesi ya da ezberlemesi gerekiyor ve bu yüzden saçma derecede çok parametre gerekiyor.
  Amaç dil modeline insan bilgisinin toplamını öğretmek değil de, yüksek kaliteli ve özenle seçilmiş bir veri kümesi sunmaksa ölçek engeli çok daha düşük olur.
  https://arxiv.org/abs/2305.07759
- Bu soru neredeyse “mevcut devasa büyük dil modelleri optimuma yakın mı” demek gibi görünüyor; öyle olmadıkları ise apaçık görünüyor.
  Optimum boyutu tahmin etmenin yolları hakkında ne tür fikirler olabileceğini merak ediyorum.
- Büyük modeller genellemede daha iyidir. Küçük modelleri belirli görevlere göre eğitmek daha kolaydır.
İlginç. Küçük bir modelin en yeni büyük dil modellerine benzer performans göstermesi için RLHF şart mı? Çıktı yapısı, ton ve alan bilgisiyle ilgili sorunlar instruction tuning ile çözülecek gibi, ama bunun küçük modelin akıl yürütme yeteneğini geliştirmek için de yeterli olup olmayacağını bilmiyorum.
175 milyar parametreli bir büyük dil modelini servis etmek için özel altyapıda en az 350GB GPU belleği gerektiği söyleniyor.
Apple, kullanılabilir GPU belleğini 144GB’a kadar destekleyen Mac Studio satıyor.
Eğer 300GB üstü belleğe sahip bir Mac Pro çıkarıp büyük dil modeli sunum pazarını ele geçirirse epey ilginç olur.
- Metal üzerinde büyük dil modellerini batch işleyebilen bir framework var mı? GGML ya da MLC’de henüz yok gibi.
  Yoksa bu, şu anda büyük dil modeli barındırma için uygun olmamasının bir başka nedeni olur.
  Her hâlükârda asıl oyunu bozabilecek taraf Intel. Teoride 2x48GB Arc kartlarla gelip, AMD/Nvidia’nın profesyonel kart müşterileri yüzünden girmediği pazarı daha düşük fiyatla hedefleyebilir.
- Apple’ın donanım avantajının M3 neslinde gerçekten açığa çıkmasını umuyorum. A17 Pro’ya ray tracing desteği gelmiş olması, mevcut güçlü oyunculara hızla yetişebileceklerine dair umut veriyor.
  Açıkçası en yeni Apple donanımlarından uzak durmama yol açan tek neden de bu. Bilgisayarı çoğunlukla masada kullanıyorum ve PC donanımı, özellikle GPU tarafında, Apple’ın en iyi ürünlerinin yapabildiklerinin çok ilerisinde. Linux işime çok iyi uyuyor ve iş bitince oyun da oynayabiliyorum; neredeyse 4 bin dolar harcamayı haklı çıkarmak zor.
- Büyük dil modeli kullanıcı kitlesini yakalamak için donanım ürünlerinin RAM kapasitesini ilk kimin dramatik biçimde artıracağını merak ediyorum. Pazar payı kazanmanın yolu gibi görünüyor.
- Bu sayı kuantizasyon bile uygulanmamış hâli. 175 milyar parametreyi 4-bit kuantize ederseniz yaklaşık 120GB VRAM’e sığar. 34 milyar parametreli bir model, 4-bit kuantizasyonla tek bir RTX3090 24GB VRAM’e de sığar.
Facebook’un tüm kullanıcıların tam sohbet geçmişiyle büyük dil modeli eğitip eğitemeyeceğini merak ediyorum.

Daha Az Eğitim Verisi ve Daha Küçük Modellerle Daha Büyük Dil Modellerini Geride Bırakan Teknik

LLM dağıtım maliyeti ve küçük model eğitiminin sınırları

Distilling step-by-step'in temel fikri

İki aşamalı eğitim süreci

Deney kurulumu ve karşılaştırma hedefleri

Daha az eğitim verisiyle standart ince ayarı geride bırakma

Daha küçük dağıtım modeliyle PaLM referansını aşma

Veri ve model boyutunu aynı anda azaltan sonuç

Sunum biçimi

İlgili okumalar

1 yorum

Hacker News yorumları