OpenELM: Açık Kaynak Eğitim ve Inference Framework'üne sahip verimli bir dil modeli ailesi
(arxiv.org)• OpenELM, büyük dil modeli alanında yeniden üretilebilirlik ve şeffaflığı teşvik eden son teknoloji bir açık dil modeli olarak tanıtılıyor. OpenELM, katman bazlı ölçekleme stratejisi kullanarak her transformer model katmanı içinde parametreleri verimli biçimde tahsis edip doğruluğu artırıyor. Örneğin, yaklaşık 1 milyar parametrelik bir bütçeyle OpenELM, ön eğitim token'larının yarısına ihtiyaç duyarken OLMo'yu %2,36 oranında geride bırakıyor.
• Yalnızca model ağırlıkları ve çıkarım kodunu sunan önceki uygulamaların aksine OpenELM, herkese açık veri kümelerini kullanarak dil modellerini eğitmek ve değerlendirmek için kapsamlı bir framework sunuyor. Buna eğitim log'ları, birden çok checkpoint ve ön eğitim yapılandırmaları dahildir. Ayrıca Apple cihazlarında çıkarım ve ince ayar için modeli MLX kütüphanesine dönüştüren kod da sağlanıyor.
• OpenELM'in yayımlanması, tam eğitim ve çıkarım framework'üne erişim sağlayarak açık araştırma topluluğunu güçlendirmeyi ve gelecekteki açık araştırma çalışmalarını teşvik etmeyi amaçlıyor. Kaynak kodu, önceden eğitilmiş model ağırlıkları ve eğitim tarifleri, Hugging Face üzerindeki model erişimiyle birlikte kolayca kullanılabiliyor.
1 yorum
Apple OpenELM 3B: 24.80 MMLU
Microsoft Phi-3-mini 3.8b: 68.8 MMLU
Etraftaki tepkilere bakınca MMLU'nun çok düşük olduğu ve eğitimde kullanılan veri setlerinin biraz eski olduğu yönünde yorumlar varmış.
Bunun eski bir model olduğu için özellikle açık kaynak yapılmış olabileceğini söyleyenler de var...