17 puan yazan GN⁺ 2024-02-29 | 2 yorum | WhatsApp'ta paylaş

1 bitlik büyük dil modelleri çağı: tüm büyük dil modelleri 1,58 bitte

  • Yakın tarihli bir araştırma olan BitNet, 1 bitlik büyük dil modelleri (LLM'ler) için yeni bir çağın kapısını açıyor.
  • Bu çalışma, her bir tekil parametresi (veya ağırlığı) üçlü {-1, 0, 1} olan 1 bitlik bir LLM varyantı olan BitNet b1.58'i tanıtıyor.
  • BitNet b1.58, aynı model boyutu ve eğitim token'larına sahip tam hassasiyetli (ör. FP16 veya BF16) Transformer LLM'lerle, karmaşıklık ve nihai görev performansı açısından eşleşirken; gecikme, bellek, throughput ve enerji tüketimi açısından çok daha maliyet verimli.
  • Daha derinlemesine bakıldığında, 1,58 bitlik LLM'ler; yüksek performanslı ve maliyet verimli yeni nesil LLM'leri eğitmek için yeni ölçekleme yasaları ve tarifler tanımlıyor.
  • Ayrıca yeni bir hesaplama paradigmasını mümkün kılıyor ve 1 bitlik LLM'ler için optimize edilmiş özel donanımlar tasarlamanın önünü açıyor.

GN⁺ görüşü

  • 1 bitlik LLM'ler, mevcut büyük dil modellerine kıyasla çok daha verimli hesaplama sağlayarak yapay zeka araştırmaları ve uygulamalarında enerji tüketimi ile maliyetleri önemli ölçüde azaltma potansiyeli taşıyor.
  • Bu teknolojinin pratikte yaygın biçimde benimsenmesi için mevcut donanım ve yazılım altyapısıyla uyumluluk ve entegrasyon sorunları önemli bir değerlendirme konusu olacaktır.
  • 1 bitlik LLM'lerle elde edilebilecek avantajlar, model boyutu ve karmaşıklığı arttıkça daha da önemli hale gelecektir; bu da özellikle kaynakların sınırlı olduğu ortamlarda yapay zeka teknolojileri kullanmak isteyen geliştiriciler için çekici olacaktır.
  • Bugün bu alanda Google'ın TPU'su gibi yapay zekaya özel donanımlar zaten mevcut olsa da, 1 bitlik LLM'ler için özelleşmiş donanım tasarımları yeni pazar fırsatları yaratabilir.
  • Bu teknolojinin benimsenmesiyle ortaya çıkabilecek temel fayda; model doğruluğu ve yanıt hızını korurken güç tüketimi ve maliyetleri düşürmektir. Ancak gerçek dünyadaki uygulamalarda mevcut modellerle performans farkları, uyumluluk sorunları ve yeni donanım gereksinimleri de dikkate alınmalıdır.

2 yorum

 
kuroneko 2024-02-29

Bu gerçekten çok ilginç. Kayan nokta yerine yalnızca {-1, 0, 1} ile de mümkün olması şaşırtıcı...
Bunun nasıl gelişeceğini görmek için sabırsızlanıyorum.

 
xguru 2024-02-29

Hacker News görüşleri

  • Araştırma sonuçlarıyla ilgili iki çarpıcı bulgu:

    • Mevcut büyük dil modeli (LLM) parametre değerleri, gerçek sayılar yerine üç değerli sistemle (-1, 0, 1) değiştirilebiliyor.
    • Matris çarpımında her noktasal çarpımın eleman bazlı çarpımları, değere göre işareti değişen eleman bazlı toplamalara dönüştürülebiliyor.
    • Bu yöntem mevcut donanımda kullanıldığında, performans kaybı olmadan hesaplama ve bellek verimliliğini büyük ölçüde artırıyor.
    • Bu yaklaşım donanıma uygulanırsa daha da büyük verimlilik artışları görülebilir.
  • BitNet b1.58'in performansı ve verimliliği:

    • BitNet b1.58, 3B boyuttan itibaren tam hassasiyetli referans modellerle eşdeğer performans gösteriyor.
    • Model performansı ve çıkarım maliyeti için yeni ölçekleme yasalarını mümkün kılıyor.
    • 13B BitNet b1.58, 3B FP16 LLM'den gecikme, bellek kullanımı ve enerji tüketimi açısından daha verimli.
    • 30B BitNet b1.58, 7B FP16 LLM'den; 70B BitNet b1.58 ise 13B FP16 LLM'den daha verimli.
    • Bu makale, performans düşüşü olmadan sağlanan verimlilik artışıyla LLM verimliliğinde önemli bir atılımı temsil ediyor.
  • Mevcut modellerin bu yeni yönteme dönüştürülüp dönüştürülemeyeceğine dair soru işaretleri ve NVIDIA hissesiyle ilgili bir şaka.

  • Yapay zeka uygulamalarında transistörlerin rolünü yeniden düşünme gereğine dair değerlendirme:

    • Yapay zekada entropi azalması büyük bir sorun olmadığından, kullanılabilir voltaj aralığından daha fazla yararlanmak gerekiyor.
    • Transistörlerin rolünü yeniden düşünmeyi ve NAND kapılarının temel yapı taşı olmayabileceğini öne sürüyor.
  • Kayan nokta gösterimiyle ilgili bir blog yazısıyla bağlantı kurularak yeni temsil biçimleri üzerine düşünceler:

    • Kayan nokta standardında +0.0 ile -0.0 ayrımının yararlı olduğu açıklanıyor.
    • LLM makalesinde kullanılan {-1, 0, -1} değerleriyle bağlantılı olarak, 2 bitlik {-1, -0, 0, 1} gösterimin ek avantaj sağlayıp sağlayamayacağı soruluyor.
    • Diğer LLM quantization makalelerinde önerilen 2 bitlik quantization değerleri merak ediliyor.
  • Sonuçların gerçekçiliğine dair şüphe ve Microsoft Research ile UCAS yazarları görüldükten sonra sonucun öneminin fark edilmesi:

    • Sonuçlar fazla iyi göründüğü için gerçek olup olmadığı sorgulanıyor, ardından yazarlara bakınca bunun sahici olduğu anlaşılıyor.
    • Bunun yalnızca edge computing uygulamaları için değil, bulutta yüksek performanslı LLM sunma maliyetini düşürmek için de etkili olması bekleniyor.
    • Uzun vadeli ekonomik etkiler ve yeni rakiplerin ortaya çıkma ihtimali üzerine düşünülüyor.
  • 'bit' ve 'trit' açıklaması ile üç değerli hesaplamanın teorik potansiyeline dair tartışma:

    • 'bit' yerine 'trit' terimi kullanılıyor ve üç değerli hesaplamanın vaatlerine dair teorik bir açıklama yapılıyor.
    • Sovyetler dönemindeki üç değerli hesaplama araştırmalarına ve teorik olarak ideal olan e tabanına değiniliyor.
  • GigaML'in yeni model eğitim planı ve iş birliği çağrısı:

    • GigaML, llama.cpp ile uyumlu yeni bir model eğitmeyi planladığını duyuruyor.
    • Küçük bir modeli (3-4B, 1 bit, açık kaynak) güncel stack-v2 veri kümesiyle eğitmeyi planlıyor ve iş birliği yapacak kişileri arıyor.
  • Sonuçlara yönelik şüpheci bakış ve yeniden üretim gerekliliğine yapılan vurgu:

    • Bu tür iyileştirmelere eleştirel yaklaşılıyor ve aşırı quantization denemelerine dair önceki deneyimlerden söz ediliyor.
  • LLM alanındaki büyük atılıma ve tek kartla 120B modeli çalıştırma ihtimaline duyulan hayranlık:

    • FP16 modelle aynı performans ve karmaşıklık düzeyi korunurken, 24GB VRAM'e sahip tek bir kartta 120B modeli çalıştırma potansiyeline hayranlık ifade ediliyor.