Apple, açık yapay zeka gücünü sergiledi: Yeni tanıtılan modeller Mistral’dan daha iyi performans gösteriyor

xguru · 2024-07-23T10:51:01+09:00

Apple’ın DataComp for Language Models proje araştırma ekibi, Hugging Face üzerinde açık DCLM model ailesini yayımladı Paket, 7B ve 1.4B parametreli iki ana model içeriyor 7 milyar (7B) parametreli model, benchmark’larda güçlü performans gösteriyor; Mistral-7B’yi geride bırakıyor ve Llama 3 ile Gemma gibi diğer büyük açık modellere yaklaşıyor Proje, model ağırlıkları, eğitim kodu ve ön eğitim veri kümesini yayımlayarak gerçek anlamda açık kaynak hâline getirildi DCLM(DataComp for Language Models) DataComp projesi, özellikle multimodal alanda, yapay zeka modellerini eğitmek için yüksek kaliteli veri kümeleri tasarlamaya yönelik ortak bir çaba olarak tanımlanabilir Deneyler, daha büyük veri kümeleri içinden yüksek kaliteli veriyi otomatik olarak filtreleyip seçen model tabanlı filtrelemenin, yüksek kaliteli eğitim setleri oluşturmanın anahtarı olabileceğini ortaya koydu Ortaya çıkan veri kümesi olan DCLM-Baseline, 7 milyar ve 1.4 milyar parametreli yeni DCLM decoder-only transformer İngilizce dil modellerini sıfırdan eğitmek için kullanıldı 7 milyarlık model, OpenLM framework’üne dayanan bir ön eğitim reçetesi kullanılarak 2.5 trilyon token ile eğitildi ve MMLU’da %63.7 5-shot doğruluk sağladı Bu, önceki en ileri açık veri dil modeli MAP-Neo’ya kıyasla 6.6 puanlık bir artış anlamına geliyor ve eğitimde %40 daha az hesaplama kullanıldı Güçlü ve daha küçük model Modelin 1.4 milyar (1.4B) sürümü de MMLU, Core ve Extended testlerinde etkileyici performans gösterdi 5-shot MMLU testinde %41.9 elde etti; bu, Hugging Face’in kısa süre önce yayımladığı SmolLM dâhil bu kategorideki diğer modellere kıyasla belirgin biçimde daha yüksek Şu anda daha büyük model Apple’ın Sample Code License’ı kapsamında kullanılabiliyor; daha küçük model ise ticari kullanım, dağıtım ve değişiklik yapılmasına izin veren Apache 2.0 altında yayımlandı HF kütüphanelerinde 7 milyar parametreli modelin instruction-tuned sürümü de bulunuyor Bunun, veri kürasyonunun etkisini vurgulayan erken dönem bir araştırma olduğunu unutmamak gerekir Bu model Apple cihazları için değil ve test eğitim verilerinde belirli önyargılar gösterebilir veya zararlı yanıtlar üretebilir

(venturebeat.com)

4 puan yazan xguru 2024-07-23 | 3 yorum | WhatsApp'ta paylaş

Apple’ın DataComp for Language Models proje araştırma ekibi, Hugging Face üzerinde açık DCLM model ailesini yayımladı
Paket, 7B ve 1.4B parametreli iki ana model içeriyor
7 milyar (7B) parametreli model, benchmark’larda güçlü performans gösteriyor; Mistral-7B’yi geride bırakıyor ve Llama 3 ile Gemma gibi diğer büyük açık modellere yaklaşıyor
Proje, model ağırlıkları, eğitim kodu ve ön eğitim veri kümesini yayımlayarak gerçek anlamda açık kaynak hâline getirildi

DCLM(DataComp for Language Models)

DataComp projesi, özellikle multimodal alanda, yapay zeka modellerini eğitmek için yüksek kaliteli veri kümeleri tasarlamaya yönelik ortak bir çaba olarak tanımlanabilir
Deneyler, daha büyük veri kümeleri içinden yüksek kaliteli veriyi otomatik olarak filtreleyip seçen model tabanlı filtrelemenin, yüksek kaliteli eğitim setleri oluşturmanın anahtarı olabileceğini ortaya koydu
Ortaya çıkan veri kümesi olan DCLM-Baseline, 7 milyar ve 1.4 milyar parametreli yeni DCLM decoder-only transformer İngilizce dil modellerini sıfırdan eğitmek için kullanıldı
7 milyarlık model, OpenLM framework’üne dayanan bir ön eğitim reçetesi kullanılarak 2.5 trilyon token ile eğitildi ve MMLU’da %63.7 5-shot doğruluk sağladı
Bu, önceki en ileri açık veri dil modeli MAP-Neo’ya kıyasla 6.6 puanlık bir artış anlamına geliyor ve eğitimde %40 daha az hesaplama kullanıldı

Güçlü ve daha küçük model

Modelin 1.4 milyar (1.4B) sürümü de MMLU, Core ve Extended testlerinde etkileyici performans gösterdi
5-shot MMLU testinde %41.9 elde etti; bu, Hugging Face’in kısa süre önce yayımladığı SmolLM dâhil bu kategorideki diğer modellere kıyasla belirgin biçimde daha yüksek
Şu anda daha büyük model Apple’ın Sample Code License’ı kapsamında kullanılabiliyor; daha küçük model ise ticari kullanım, dağıtım ve değişiklik yapılmasına izin veren Apache 2.0 altında yayımlandı
HF kütüphanelerinde 7 milyar parametreli modelin instruction-tuned sürümü de bulunuyor
Bunun, veri kürasyonunun etkisini vurgulayan erken dönem bir araştırma olduğunu unutmamak gerekir
- Bu model Apple cihazları için değil ve test eğitim verilerinde belirli önyargılar gösterebilir veya zararlı yanıtlar üretebilir

3 yorum

j2sus91 2024-07-23

Etkisi iPhone'a eklenince en üst düzeye çıkıyor çünkü.
Samsung da on-device'a odaklanıyor.

xguru 2024-07-23

Apple, cihaz içi kullanım hedefiyle 8 küçük AI dil modeli yayımladı

Görünüşe göre Apple, cihaz içi yapay zeka için küçük modellere odaklanmayı sürdürüyor. Bir an önce deneyip görmek istiyorum.

godrm 2024-07-23

Sanırım gelecek yıldan itibaren bunu gerçekten kullanabileceğiz haha

Apple, açık yapay zeka gücünü sergiledi: Yeni tanıtılan modeller Mistral’dan daha iyi performans gösteriyor

DCLM(DataComp for Language Models)

Güçlü ve daha küçük model

İlgili okumalar

3 yorum