4 puan yazan xguru 2024-07-23 | 3 yorum | WhatsApp'ta paylaş
  • Apple’ın DataComp for Language Models proje araştırma ekibi, Hugging Face üzerinde açık DCLM model ailesini yayımladı
  • Paket, 7B ve 1.4B parametreli iki ana model içeriyor
  • 7 milyar (7B) parametreli model, benchmark’larda güçlü performans gösteriyor; Mistral-7B’yi geride bırakıyor ve Llama 3 ile Gemma gibi diğer büyük açık modellere yaklaşıyor
  • Proje, model ağırlıkları, eğitim kodu ve ön eğitim veri kümesini yayımlayarak gerçek anlamda açık kaynak hâline getirildi

DCLM(DataComp for Language Models)

  • DataComp projesi, özellikle multimodal alanda, yapay zeka modellerini eğitmek için yüksek kaliteli veri kümeleri tasarlamaya yönelik ortak bir çaba olarak tanımlanabilir
  • Deneyler, daha büyük veri kümeleri içinden yüksek kaliteli veriyi otomatik olarak filtreleyip seçen model tabanlı filtrelemenin, yüksek kaliteli eğitim setleri oluşturmanın anahtarı olabileceğini ortaya koydu
  • Ortaya çıkan veri kümesi olan DCLM-Baseline, 7 milyar ve 1.4 milyar parametreli yeni DCLM decoder-only transformer İngilizce dil modellerini sıfırdan eğitmek için kullanıldı
  • 7 milyarlık model, OpenLM framework’üne dayanan bir ön eğitim reçetesi kullanılarak 2.5 trilyon token ile eğitildi ve MMLU’da %63.7 5-shot doğruluk sağladı
  • Bu, önceki en ileri açık veri dil modeli MAP-Neo’ya kıyasla 6.6 puanlık bir artış anlamına geliyor ve eğitimde %40 daha az hesaplama kullanıldı

Güçlü ve daha küçük model

  • Modelin 1.4 milyar (1.4B) sürümü de MMLU, Core ve Extended testlerinde etkileyici performans gösterdi
  • 5-shot MMLU testinde %41.9 elde etti; bu, Hugging Face’in kısa süre önce yayımladığı SmolLM dâhil bu kategorideki diğer modellere kıyasla belirgin biçimde daha yüksek
  • Şu anda daha büyük model Apple’ın Sample Code License’ı kapsamında kullanılabiliyor; daha küçük model ise ticari kullanım, dağıtım ve değişiklik yapılmasına izin veren Apache 2.0 altında yayımlandı
  • HF kütüphanelerinde 7 milyar parametreli modelin instruction-tuned sürümü de bulunuyor
  • Bunun, veri kürasyonunun etkisini vurgulayan erken dönem bir araştırma olduğunu unutmamak gerekir
    • Bu model Apple cihazları için değil ve test eğitim verilerinde belirli önyargılar gösterebilir veya zararlı yanıtlar üretebilir

3 yorum

 
j2sus91 2024-07-23

Etkisi iPhone'a eklenince en üst düzeye çıkıyor çünkü.
Samsung da on-device'a odaklanıyor.

 
xguru 2024-07-23

Apple, cihaz içi kullanım hedefiyle 8 küçük AI dil modeli yayımladı

Görünüşe göre Apple, cihaz içi yapay zeka için küçük modellere odaklanmayı sürdürüyor. Bir an önce deneyip görmek istiyorum.

 
godrm 2024-07-23

Sanırım gelecek yıldan itibaren bunu gerçekten kullanabileceğiz haha