- Apple’ın DataComp for Language Models proje araştırma ekibi, Hugging Face üzerinde açık DCLM model ailesini yayımladı
- Paket, 7B ve 1.4B parametreli iki ana model içeriyor
- 7 milyar (7B) parametreli model, benchmark’larda güçlü performans gösteriyor; Mistral-7B’yi geride bırakıyor ve Llama 3 ile Gemma gibi diğer büyük açık modellere yaklaşıyor
- Proje, model ağırlıkları, eğitim kodu ve ön eğitim veri kümesini yayımlayarak gerçek anlamda açık kaynak hâline getirildi
DCLM(DataComp for Language Models)
- DataComp projesi, özellikle multimodal alanda, yapay zeka modellerini eğitmek için yüksek kaliteli veri kümeleri tasarlamaya yönelik ortak bir çaba olarak tanımlanabilir
- Deneyler, daha büyük veri kümeleri içinden yüksek kaliteli veriyi otomatik olarak filtreleyip seçen model tabanlı filtrelemenin, yüksek kaliteli eğitim setleri oluşturmanın anahtarı olabileceğini ortaya koydu
- Ortaya çıkan veri kümesi olan DCLM-Baseline, 7 milyar ve 1.4 milyar parametreli yeni DCLM decoder-only transformer İngilizce dil modellerini sıfırdan eğitmek için kullanıldı
- 7 milyarlık model, OpenLM framework’üne dayanan bir ön eğitim reçetesi kullanılarak 2.5 trilyon token ile eğitildi ve MMLU’da %63.7 5-shot doğruluk sağladı
- Bu, önceki en ileri açık veri dil modeli MAP-Neo’ya kıyasla 6.6 puanlık bir artış anlamına geliyor ve eğitimde %40 daha az hesaplama kullanıldı
Güçlü ve daha küçük model
- Modelin 1.4 milyar (1.4B) sürümü de MMLU, Core ve Extended testlerinde etkileyici performans gösterdi
- 5-shot MMLU testinde %41.9 elde etti; bu, Hugging Face’in kısa süre önce yayımladığı SmolLM dâhil bu kategorideki diğer modellere kıyasla belirgin biçimde daha yüksek
- Şu anda daha büyük model Apple’ın Sample Code License’ı kapsamında kullanılabiliyor; daha küçük model ise ticari kullanım, dağıtım ve değişiklik yapılmasına izin veren Apache 2.0 altında yayımlandı
- HF kütüphanelerinde 7 milyar parametreli modelin instruction-tuned sürümü de bulunuyor
- Bunun, veri kürasyonunun etkisini vurgulayan erken dönem bir araştırma olduğunu unutmamak gerekir
- Bu model Apple cihazları için değil ve test eğitim verilerinde belirli önyargılar gösterebilir veya zararlı yanıtlar üretebilir
3 yorum
Etkisi iPhone'a eklenince en üst düzeye çıkıyor çünkü.
Samsung da on-device'a odaklanıyor.
Apple, cihaz içi kullanım hedefiyle 8 küçük AI dil modeli yayımladı
Görünüşe göre Apple, cihaz içi yapay zeka için küçük modellere odaklanmayı sürdürüyor. Bir an önce deneyip görmek istiyorum.
Sanırım gelecek yıldan itibaren bunu gerçekten kullanabileceğiz haha