3 puan yazan GN⁺ 2024-07-11 | 1 yorum | WhatsApp'ta paylaş
  • ICML 2024'te sunulan "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases" makalesinde tanıtılan MobileLLM'in eğitim kodunu içerir
  • Bu çalışma, 1 milyardan az parametreye sahip yüksek kaliteli LLM'ler elde etmek için çeşitli tasarım unsurlarını bütüncül olarak ele alır
  • MobileLLM, (1) SwiGLU aktivasyon fonksiyonu, (2) derin ve ince mimari, (3) embedding paylaşımı, (4) grouped-query attention birleştirilerek oluşturulmuştur
  • MobileLLM-125M/350M, önceki 125M/350M SoTA modellere kıyasla zero-shot sağduyu akıl yürütme görevlerinde sırasıyla %2,7/%4,3 doğruluk artışı elde eder
  • Güncellenmiş sürümde MobileLLM-600M/1B/1.5B modelleri daha büyük modellere ölçeklendirilmiş ve SoTA sonuçlar göstermiştir

GN⁺ özeti

  • MobileLLM, 1 milyardan az parametreye sahip yüksek kaliteli dil modelleri için optimize edilmiş bir tasarım felsefesi sunar
  • SwiGLU aktivasyon fonksiyonu, derin ve ince mimari, embedding paylaşımı ve grouped-query attention gibi unsurları birleştirerek performansı artırır
  • Zero-shot sağduyu akıl yürütme görevlerinde mevcut modellere göre daha yüksek doğruluk elde eder
  • Bu çalışma, mobil ve gömülü cihazlarda dil modeli kullanım senaryolarına önemli katkı sağlar
  • Benzer işlevlere sahip projeler arasında GPT-neo, OPT ve BLOOM bulunur

1 yorum

 
GN⁺ 2024-07-11
Hacker News yorumları
  • MobileLLM-125M/350M modellerinin, önceki 125M/350M SoTA modellere göre doğrulukta %2,7/%4,3 artış gösterdiği belirtiliyor

    • Küçük modeller biraz iyileşmiş olsa da, çevrimiçi modellerle aynı kullanım alanları için hâlâ yeterli değil
    • Kademeli ilerlemede bir sorun olmadığı ifade ediliyor
  • 1.5B parametreli modelin oldukça büyük bir ilerleme kaydettiği belirtiliyor

    • Neden daha büyük modellerin kullanılmadığı merak ediliyor
    • RPi boyutundaki donanıma uygun verimli bir modelin oyun değiştirici olabileceği belirtiliyor
    • TinyLlama 7B modelinin zar zor çalıştığı ifade ediliyor
  • Apple Watch'ın küçük modellerin çıkarımını çalıştıracak donanımsal kapasiteye sahip olup olmadığı merak ediliyor

    • Geliştirici hesabı gerekip gerekmediği soruluyor
  • Bunun yalnızca mobil cihazlarla sınırlı kalıp kalmaması gerektiği soruluyor

    • Çok fazla kaynak tüketmiyorsa, oyunlardaki NPC diyaloglarını daha ilginç hâle getirebileceği belirtiliyor
    • NPC davranışını etkileyebilecek şekilde ayarlanabilirse daha da iyi olacağı ifade ediliyor
  • Şu anda cihaz üzerinde wake-word benzeri STT'ye ihtiyaç duyulduğu belirtiliyor

    • RPi 4B üzerinde çalışabilecek modeller arasında en düşük WER'e sahip olan aranıyor
    • openWakeWord'e bakılıyor
    • Bunun DIY bir envanter sistemi için gerektiği ifade ediliyor
  • iPhone'da çalıştırılabilecek bir uygulama aranıyor

    • Şu anda yalnızca MLC uygulamasının bilindiği ve onda da sadece 3 eski model bulunduğu belirtiliyor
  • "Daha derin ve daha ince" kısmının ne kadar ileri götürülebileceği merak ediliyor

    • FFN L2 cache'e sığarsa performansın artacağı belirtiliyor
  • Distillation gibi yöntemlerin yardımcı olup olamayacağı soruluyor

  • Küçük modellerin, linear head ile token embedding arasındaki paylaşım/ağırlık bağlama sayesinde en büyük boyut küçülmesini elde ediyor gibi göründüğü belirtiliyor

    • Bundan sonra boyutu daha da küçültmenin yollarına dair araştırma olup olmadığı merak ediliyor
  • Bu model kullanılarak Windows PC'de de model eğitimi yapılıp yapılamayacağı soruluyor

    • Fazla RAM olmadığı belirtiliyor
  • Bunun ilginç olduğu, ancak daha iyi otomatik tamamlama dışında hangi kullanım alanlarının olduğu merak ediliyor