- ICML 2024'te sunulan "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases" makalesinde tanıtılan MobileLLM'in eğitim kodunu içerir
- Bu çalışma, 1 milyardan az parametreye sahip yüksek kaliteli LLM'ler elde etmek için çeşitli tasarım unsurlarını bütüncül olarak ele alır
- MobileLLM, (1) SwiGLU aktivasyon fonksiyonu, (2) derin ve ince mimari, (3) embedding paylaşımı, (4) grouped-query attention birleştirilerek oluşturulmuştur
- MobileLLM-125M/350M, önceki 125M/350M SoTA modellere kıyasla zero-shot sağduyu akıl yürütme görevlerinde sırasıyla %2,7/%4,3 doğruluk artışı elde eder
- Güncellenmiş sürümde MobileLLM-600M/1B/1.5B modelleri daha büyük modellere ölçeklendirilmiş ve SoTA sonuçlar göstermiştir
GN⁺ özeti
- MobileLLM, 1 milyardan az parametreye sahip yüksek kaliteli dil modelleri için optimize edilmiş bir tasarım felsefesi sunar
- SwiGLU aktivasyon fonksiyonu, derin ve ince mimari, embedding paylaşımı ve grouped-query attention gibi unsurları birleştirerek performansı artırır
- Zero-shot sağduyu akıl yürütme görevlerinde mevcut modellere göre daha yüksek doğruluk elde eder
- Bu çalışma, mobil ve gömülü cihazlarda dil modeli kullanım senaryolarına önemli katkı sağlar
- Benzer işlevlere sahip projeler arasında GPT-neo, OPT ve BLOOM bulunur
1 yorum
Hacker News yorumları
MobileLLM-125M/350M modellerinin, önceki 125M/350M SoTA modellere göre doğrulukta %2,7/%4,3 artış gösterdiği belirtiliyor
1.5B parametreli modelin oldukça büyük bir ilerleme kaydettiği belirtiliyor
Apple Watch'ın küçük modellerin çıkarımını çalıştıracak donanımsal kapasiteye sahip olup olmadığı merak ediliyor
Bunun yalnızca mobil cihazlarla sınırlı kalıp kalmaması gerektiği soruluyor
Şu anda cihaz üzerinde wake-word benzeri STT'ye ihtiyaç duyulduğu belirtiliyor
iPhone'da çalıştırılabilecek bir uygulama aranıyor
"Daha derin ve daha ince" kısmının ne kadar ileri götürülebileceği merak ediliyor
Distillation gibi yöntemlerin yardımcı olup olamayacağı soruluyor
Küçük modellerin, linear head ile token embedding arasındaki paylaşım/ağırlık bağlama sayesinde en büyük boyut küçülmesini elde ediyor gibi göründüğü belirtiliyor
Bu model kullanılarak Windows PC'de de model eğitimi yapılıp yapılamayacağı soruluyor
Bunun ilginç olduğu, ancak daha iyi otomatik tamamlama dışında hangi kullanım alanlarının olduğu merak ediliyor