1 Bitlik LLM Çağı: Maliyet Verimli Hesaplama için Üçlü Parametreler

(arxiv.org)

17 puan yazan GN⁺ 2024-02-29 | 2 yorum | WhatsApp'ta paylaş

1 bitlik büyük dil modelleri çağı: tüm büyük dil modelleri 1,58 bitte

Yakın tarihli bir araştırma olan BitNet, 1 bitlik büyük dil modelleri (LLM'ler) için yeni bir çağın kapısını açıyor.
Bu çalışma, her bir tekil parametresi (veya ağırlığı) üçlü {-1, 0, 1} olan 1 bitlik bir LLM varyantı olan BitNet b1.58'i tanıtıyor.
BitNet b1.58, aynı model boyutu ve eğitim token'larına sahip tam hassasiyetli (ör. FP16 veya BF16) Transformer LLM'lerle, karmaşıklık ve nihai görev performansı açısından eşleşirken; gecikme, bellek, throughput ve enerji tüketimi açısından çok daha maliyet verimli.
Daha derinlemesine bakıldığında, 1,58 bitlik LLM'ler; yüksek performanslı ve maliyet verimli yeni nesil LLM'leri eğitmek için yeni ölçekleme yasaları ve tarifler tanımlıyor.
Ayrıca yeni bir hesaplama paradigmasını mümkün kılıyor ve 1 bitlik LLM'ler için optimize edilmiş özel donanımlar tasarlamanın önünü açıyor.

GN⁺ görüşü

1 bitlik LLM'ler, mevcut büyük dil modellerine kıyasla çok daha verimli hesaplama sağlayarak yapay zeka araştırmaları ve uygulamalarında enerji tüketimi ile maliyetleri önemli ölçüde azaltma potansiyeli taşıyor.
Bu teknolojinin pratikte yaygın biçimde benimsenmesi için mevcut donanım ve yazılım altyapısıyla uyumluluk ve entegrasyon sorunları önemli bir değerlendirme konusu olacaktır.
1 bitlik LLM'lerle elde edilebilecek avantajlar, model boyutu ve karmaşıklığı arttıkça daha da önemli hale gelecektir; bu da özellikle kaynakların sınırlı olduğu ortamlarda yapay zeka teknolojileri kullanmak isteyen geliştiriciler için çekici olacaktır.
Bugün bu alanda Google'ın TPU'su gibi yapay zekaya özel donanımlar zaten mevcut olsa da, 1 bitlik LLM'ler için özelleşmiş donanım tasarımları yeni pazar fırsatları yaratabilir.
Bu teknolojinin benimsenmesiyle ortaya çıkabilecek temel fayda; model doğruluğu ve yanıt hızını korurken güç tüketimi ve maliyetleri düşürmektir. Ancak gerçek dünyadaki uygulamalarda mevcut modellerle performans farkları, uyumluluk sorunları ve yeni donanım gereksinimleri de dikkate alınmalıdır.

2 yorum

kuroneko 2024-02-29

Bu gerçekten çok ilginç. Kayan nokta yerine yalnızca {-1, 0, 1} ile de mümkün olması şaşırtıcı...
Bunun nasıl gelişeceğini görmek için sabırsızlanıyorum.

xguru 2024-02-29

Hacker News görüşleri

Araştırma sonuçlarıyla ilgili iki çarpıcı bulgu:
- Mevcut büyük dil modeli (LLM) parametre değerleri, gerçek sayılar yerine üç değerli sistemle (-1, 0, 1) değiştirilebiliyor.
- Matris çarpımında her noktasal çarpımın eleman bazlı çarpımları, değere göre işareti değişen eleman bazlı toplamalara dönüştürülebiliyor.
- Bu yöntem mevcut donanımda kullanıldığında, performans kaybı olmadan hesaplama ve bellek verimliliğini büyük ölçüde artırıyor.
- Bu yaklaşım donanıma uygulanırsa daha da büyük verimlilik artışları görülebilir.
BitNet b1.58'in performansı ve verimliliği:
- BitNet b1.58, 3B boyuttan itibaren tam hassasiyetli referans modellerle eşdeğer performans gösteriyor.
- Model performansı ve çıkarım maliyeti için yeni ölçekleme yasalarını mümkün kılıyor.
- 13B BitNet b1.58, 3B FP16 LLM'den gecikme, bellek kullanımı ve enerji tüketimi açısından daha verimli.
- 30B BitNet b1.58, 7B FP16 LLM'den; 70B BitNet b1.58 ise 13B FP16 LLM'den daha verimli.
- Bu makale, performans düşüşü olmadan sağlanan verimlilik artışıyla LLM verimliliğinde önemli bir atılımı temsil ediyor.
Mevcut modellerin bu yeni yönteme dönüştürülüp dönüştürülemeyeceğine dair soru işaretleri ve NVIDIA hissesiyle ilgili bir şaka.
Yapay zeka uygulamalarında transistörlerin rolünü yeniden düşünme gereğine dair değerlendirme:
- Yapay zekada entropi azalması büyük bir sorun olmadığından, kullanılabilir voltaj aralığından daha fazla yararlanmak gerekiyor.
- Transistörlerin rolünü yeniden düşünmeyi ve NAND kapılarının temel yapı taşı olmayabileceğini öne sürüyor.
Kayan nokta gösterimiyle ilgili bir blog yazısıyla bağlantı kurularak yeni temsil biçimleri üzerine düşünceler:
- Kayan nokta standardında +0.0 ile -0.0 ayrımının yararlı olduğu açıklanıyor.
- LLM makalesinde kullanılan {-1, 0, -1} değerleriyle bağlantılı olarak, 2 bitlik {-1, -0, 0, 1} gösterimin ek avantaj sağlayıp sağlayamayacağı soruluyor.
- Diğer LLM quantization makalelerinde önerilen 2 bitlik quantization değerleri merak ediliyor.
Sonuçların gerçekçiliğine dair şüphe ve Microsoft Research ile UCAS yazarları görüldükten sonra sonucun öneminin fark edilmesi:
- Sonuçlar fazla iyi göründüğü için gerçek olup olmadığı sorgulanıyor, ardından yazarlara bakınca bunun sahici olduğu anlaşılıyor.
- Bunun yalnızca edge computing uygulamaları için değil, bulutta yüksek performanslı LLM sunma maliyetini düşürmek için de etkili olması bekleniyor.
- Uzun vadeli ekonomik etkiler ve yeni rakiplerin ortaya çıkma ihtimali üzerine düşünülüyor.
'bit' ve 'trit' açıklaması ile üç değerli hesaplamanın teorik potansiyeline dair tartışma:
- 'bit' yerine 'trit' terimi kullanılıyor ve üç değerli hesaplamanın vaatlerine dair teorik bir açıklama yapılıyor.
- Sovyetler dönemindeki üç değerli hesaplama araştırmalarına ve teorik olarak ideal olan e tabanına değiniliyor.
GigaML'in yeni model eğitim planı ve iş birliği çağrısı:
- GigaML, llama.cpp ile uyumlu yeni bir model eğitmeyi planladığını duyuruyor.
- Küçük bir modeli (3-4B, 1 bit, açık kaynak) güncel stack-v2 veri kümesiyle eğitmeyi planlıyor ve iş birliği yapacak kişileri arıyor.
Sonuçlara yönelik şüpheci bakış ve yeniden üretim gerekliliğine yapılan vurgu:
- Bu tür iyileştirmelere eleştirel yaklaşılıyor ve aşırı quantization denemelerine dair önceki deneyimlerden söz ediliyor.
LLM alanındaki büyük atılıma ve tek kartla 120B modeli çalıştırma ihtimaline duyulan hayranlık:
- FP16 modelle aynı performans ve karmaşıklık düzeyi korunurken, 24GB VRAM'e sahip tek bir kartta 120B modeli çalıştırma potansiyeline hayranlık ifade ediliyor.