Meta, hızlandırılmış ve bellek kullanımı azaltılmış kuantize Llama modellerini tanıttı

(ai.meta.com)

2 puan yazan GN⁺ 2024-10-25 | Henüz yorum yok. | WhatsApp'ta paylaş

Meta, mobil cihazlarda çalışabilen hafifletilmiş kuantize Llama modellerini yayınladı
8K ve altındaki kısa bağlamlı uygulamalara göre özelleştirildi
Kuantize modeller 2-4 kat hız artışı, model boyutunda %56 azalma ve bellek kullanımında %41 düşüş sağlıyor.
Kuantizasyon teknikleri
- Llama 3.2 1B ve 3B modelleri için Quantization-Aware Training (QAT) ve SpinQuant teknikleri kullanıldı.
- QAT doğruluğu, SpinQuant ise taşınabilirliği önceliklendiriyor.
- Her iki kuantizasyon tekniği de PyTorch'un ExecuTorch framework'ü üzerinden destekleniyor.
Mobil cihaz optimizasyonu
- Qualcomm ve MediaTek SoC'lerde çalışacak şekilde tasarlandı.
- Android OnePlus 12 modeli üzerinde yapılan testlerde model boyutu ve bellek kullanımının önemli ölçüde azaldığı görüldü.
- Performans, mobil CPU ve NPU kullanılarak optimize edildi.
Kuantizasyon ayarları
- PyTorch'un ExecuTorch çıkarım framework'ü ve Arm CPU backend'i dikkate alınarak tasarlandı.
- Tüm doğrusal katmanlar 4 bit grup düzeyinde kuantize edildi ve aktivasyonlarda 8 bit dinamik kuantizasyon kullanıldı.
Kuantizasyon farkındalıklı eğitim (QAT) ve LoRA
- Llama 3.2 modelinin eğitimi sırasında kuantizasyon etkilerini simüle eden QAT kullanılarak düşük hassasiyetli ortamlarda performans optimize edildi
- QAT başlangıcı için BF16 Llama 3.2 model checkpoint'i kullanıldı ve QAT ile ek SFT eğitimi gerçekleştirildi
- QAT modelinin backbone'u sabitlenip LoRA adapter'ları uygulanarak bir kez daha SFT yapıldı
- QAT işlemi için torchao API kullanıldı
SpinQuant
- QAT + LoRA'ya göre daha az doğru olsa da veri kümesine erişim olmadan da çalışabildiği için taşınabilirliği yüksektir.
- Model, farklı donanım hedeflerine ve kullanım senaryolarına göre kuantize edilebilir.
Sonuçlar
- QLoRA yaklaşımı kalite açısından her alanda en iyi sonucu verdi
- BF16'ya kıyasla decode gecikmesi ortalama 2,5 kat, prefill gecikmesi ise 4,2 kat iyileşti
- Model boyutu ortalama %56 küçüldü, bellek kullanımı ise %41 azaldı
- Ölçümler Android OnePlus 12 cihazında yapıldı; iOS cihazlarda doğruluk benzer olsa da performans değerlendirilmedi

GN⁺ özeti

Meta'nın kuantize Llama modelleri, mobil cihazlarda çalıştırma için hafiflik ve performans optimizasyonunu hedefliyor
QAT ve SpinQuant teknikleriyle doğruluk ve taşınabilirliği birlikte gözeten kuantize modeller sunuluyor
Mobil CPU ve NPU kullanılarak performans en üst düzeye çıkarılırken, farklı donanımlarda kullanım da destekleniyor
Çeşitli mobil platformlar ve iş ortaklarıyla yakın iş birliği sayesinde, gerçek ürünlerde uygulanabilecek düzeyde bir çözüm sunulmuş görünüyor
Meta'nın Llama modeli; açıklık, değiştirilebilirlik ve maliyet verimliliği açısından rekabetçi görülüyor ve sürekli yeniliklerle mobilde güçlü bir yapay zeka deneyimi sunması bekleniyor

Meta, hızlandırılmış ve bellek kullanımı azaltılmış kuantize Llama modellerini tanıttı

GN⁺ özeti

İlgili okumalar

Henüz yorum yok.