2 puan yazan GN⁺ 2024-10-25 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Meta, mobil cihazlarda çalışabilen hafifletilmiş kuantize Llama modellerini yayınladı
  • 8K ve altındaki kısa bağlamlı uygulamalara göre özelleştirildi
  • Kuantize modeller 2-4 kat hız artışı, model boyutunda %56 azalma ve bellek kullanımında %41 düşüş sağlıyor.
  • Kuantizasyon teknikleri
    • Llama 3.2 1B ve 3B modelleri için Quantization-Aware Training (QAT) ve SpinQuant teknikleri kullanıldı.
    • QAT doğruluğu, SpinQuant ise taşınabilirliği önceliklendiriyor.
    • Her iki kuantizasyon tekniği de PyTorch'un ExecuTorch framework'ü üzerinden destekleniyor.
  • Mobil cihaz optimizasyonu
    • Qualcomm ve MediaTek SoC'lerde çalışacak şekilde tasarlandı.
    • Android OnePlus 12 modeli üzerinde yapılan testlerde model boyutu ve bellek kullanımının önemli ölçüde azaldığı görüldü.
    • Performans, mobil CPU ve NPU kullanılarak optimize edildi.
  • Kuantizasyon ayarları
    • PyTorch'un ExecuTorch çıkarım framework'ü ve Arm CPU backend'i dikkate alınarak tasarlandı.
    • Tüm doğrusal katmanlar 4 bit grup düzeyinde kuantize edildi ve aktivasyonlarda 8 bit dinamik kuantizasyon kullanıldı.
  • Kuantizasyon farkındalıklı eğitim (QAT) ve LoRA
    • Llama 3.2 modelinin eğitimi sırasında kuantizasyon etkilerini simüle eden QAT kullanılarak düşük hassasiyetli ortamlarda performans optimize edildi
    • QAT başlangıcı için BF16 Llama 3.2 model checkpoint'i kullanıldı ve QAT ile ek SFT eğitimi gerçekleştirildi
    • QAT modelinin backbone'u sabitlenip LoRA adapter'ları uygulanarak bir kez daha SFT yapıldı
    • QAT işlemi için torchao API kullanıldı
  • SpinQuant
    • QAT + LoRA'ya göre daha az doğru olsa da veri kümesine erişim olmadan da çalışabildiği için taşınabilirliği yüksektir.
    • Model, farklı donanım hedeflerine ve kullanım senaryolarına göre kuantize edilebilir.
  • Sonuçlar
    • QLoRA yaklaşımı kalite açısından her alanda en iyi sonucu verdi
    • BF16'ya kıyasla decode gecikmesi ortalama 2,5 kat, prefill gecikmesi ise 4,2 kat iyileşti
    • Model boyutu ortalama %56 küçüldü, bellek kullanımı ise %41 azaldı
    • Ölçümler Android OnePlus 12 cihazında yapıldı; iOS cihazlarda doğruluk benzer olsa da performans değerlendirilmedi

GN⁺ özeti

  • Meta'nın kuantize Llama modelleri, mobil cihazlarda çalıştırma için hafiflik ve performans optimizasyonunu hedefliyor
  • QAT ve SpinQuant teknikleriyle doğruluk ve taşınabilirliği birlikte gözeten kuantize modeller sunuluyor
  • Mobil CPU ve NPU kullanılarak performans en üst düzeye çıkarılırken, farklı donanımlarda kullanım da destekleniyor
  • Çeşitli mobil platformlar ve iş ortaklarıyla yakın iş birliği sayesinde, gerçek ürünlerde uygulanabilecek düzeyde bir çözüm sunulmuş görünüyor
  • Meta'nın Llama modeli; açıklık, değiştirilebilirlik ve maliyet verimliliği açısından rekabetçi görülüyor ve sürekli yeniliklerle mobilde güçlü bir yapay zeka deneyimi sunması bekleniyor

Henüz yorum yok.

Henüz yorum yok.