2 puan yazan brainer 2024-04-25 | 1 yorum | WhatsApp'ta paylaş

• OpenELM, büyük dil modeli alanında yeniden üretilebilirlik ve şeffaflığı teşvik eden son teknoloji bir açık dil modeli olarak tanıtılıyor. OpenELM, katman bazlı ölçekleme stratejisi kullanarak her transformer model katmanı içinde parametreleri verimli biçimde tahsis edip doğruluğu artırıyor. Örneğin, yaklaşık 1 milyar parametrelik bir bütçeyle OpenELM, ön eğitim token'larının yarısına ihtiyaç duyarken OLMo'yu %2,36 oranında geride bırakıyor.

• Yalnızca model ağırlıkları ve çıkarım kodunu sunan önceki uygulamaların aksine OpenELM, herkese açık veri kümelerini kullanarak dil modellerini eğitmek ve değerlendirmek için kapsamlı bir framework sunuyor. Buna eğitim log'ları, birden çok checkpoint ve ön eğitim yapılandırmaları dahildir. Ayrıca Apple cihazlarında çıkarım ve ince ayar için modeli MLX kütüphanesine dönüştüren kod da sağlanıyor.

• OpenELM'in yayımlanması, tam eğitim ve çıkarım framework'üne erişim sağlayarak açık araştırma topluluğunu güçlendirmeyi ve gelecekteki açık araştırma çalışmalarını teşvik etmeyi amaçlıyor. Kaynak kodu, önceden eğitilmiş model ağırlıkları ve eğitim tarifleri, Hugging Face üzerindeki model erişimiyle birlikte kolayca kullanılabiliyor.

1 yorum

 
cosine20 2024-04-25

Apple OpenELM 3B: 24.80 MMLU
Microsoft Phi-3-mini 3.8b: 68.8 MMLU

Etraftaki tepkilere bakınca MMLU'nun çok düşük olduğu ve eğitimde kullanılan veri setlerinin biraz eski olduğu yönünde yorumlar varmış.
Bunun eski bir model olduğu için özellikle açık kaynak yapılmış olabileceğini söyleyenler de var...