- Meta, mobil cihazlarda çalışabilen hafifletilmiş kuantize Llama modellerini yayınladı
- 8K ve altındaki kısa bağlamlı uygulamalara göre özelleştirildi
- Kuantize modeller 2-4 kat hız artışı, model boyutunda %56 azalma ve bellek kullanımında %41 düşüş sağlıyor.
- Kuantizasyon teknikleri
- Llama 3.2 1B ve 3B modelleri için Quantization-Aware Training (QAT) ve SpinQuant teknikleri kullanıldı.
- QAT doğruluğu, SpinQuant ise taşınabilirliği önceliklendiriyor.
- Her iki kuantizasyon tekniği de PyTorch'un ExecuTorch framework'ü üzerinden destekleniyor.
- Mobil cihaz optimizasyonu
- Qualcomm ve MediaTek SoC'lerde çalışacak şekilde tasarlandı.
- Android OnePlus 12 modeli üzerinde yapılan testlerde model boyutu ve bellek kullanımının önemli ölçüde azaldığı görüldü.
- Performans, mobil CPU ve NPU kullanılarak optimize edildi.
- Kuantizasyon ayarları
- PyTorch'un ExecuTorch çıkarım framework'ü ve Arm CPU backend'i dikkate alınarak tasarlandı.
- Tüm doğrusal katmanlar 4 bit grup düzeyinde kuantize edildi ve aktivasyonlarda 8 bit dinamik kuantizasyon kullanıldı.
- Kuantizasyon farkındalıklı eğitim (QAT) ve LoRA
- Llama 3.2 modelinin eğitimi sırasında kuantizasyon etkilerini simüle eden QAT kullanılarak düşük hassasiyetli ortamlarda performans optimize edildi
- QAT başlangıcı için BF16 Llama 3.2 model checkpoint'i kullanıldı ve QAT ile ek SFT eğitimi gerçekleştirildi
- QAT modelinin backbone'u sabitlenip LoRA adapter'ları uygulanarak bir kez daha SFT yapıldı
- QAT işlemi için torchao API kullanıldı
- SpinQuant
- QAT + LoRA'ya göre daha az doğru olsa da veri kümesine erişim olmadan da çalışabildiği için taşınabilirliği yüksektir.
- Model, farklı donanım hedeflerine ve kullanım senaryolarına göre kuantize edilebilir.
- Sonuçlar
- QLoRA yaklaşımı kalite açısından her alanda en iyi sonucu verdi
- BF16'ya kıyasla decode gecikmesi ortalama 2,5 kat, prefill gecikmesi ise 4,2 kat iyileşti
- Model boyutu ortalama %56 küçüldü, bellek kullanımı ise %41 azaldı
- Ölçümler Android OnePlus 12 cihazında yapıldı; iOS cihazlarda doğruluk benzer olsa da performans değerlendirilmedi
GN⁺ özeti
- Meta'nın kuantize Llama modelleri, mobil cihazlarda çalıştırma için hafiflik ve performans optimizasyonunu hedefliyor
- QAT ve SpinQuant teknikleriyle doğruluk ve taşınabilirliği birlikte gözeten kuantize modeller sunuluyor
- Mobil CPU ve NPU kullanılarak performans en üst düzeye çıkarılırken, farklı donanımlarda kullanım da destekleniyor
- Çeşitli mobil platformlar ve iş ortaklarıyla yakın iş birliği sayesinde, gerçek ürünlerde uygulanabilecek düzeyde bir çözüm sunulmuş görünüyor
- Meta'nın Llama modeli; açıklık, değiştirilebilirlik ve maliyet verimliliği açısından rekabetçi görülüyor ve sürekli yeniliklerle mobilde güçlü bir yapay zeka deneyimi sunması bekleniyor
Henüz yorum yok.