- Tamamen açık bir dil modeli oluşturmayı amaçlayan proje
- 3 hafta önce yayınlanan RedPajama-Data-1T veri seti temel alınarak 3B (tamamlandı) ve 7B (önizleme) parametreli RedPajama-INCITE modelleri yayınlandı
- Base model
- Instruction-Tuned model
- Chat modeli
- 3B modeli kendi sınıfında en güçlü model. Küçük boyutu sayesinde hızlı ve 5 yıl önce çıkan RTX 2070 gibi donanımlarda da çalışabiliyor
- Komut ayarlamalı 7B model sürümü, HELM benchmark'ında LLaMA 7B'den 3 puan daha yüksek
- 7B modeli (eğitimin %80'i tamamlandı) şimdiden Pythia 7B modelini geçti
- 7B eğitimi birkaç hafta içinde tamamlandığında LLaMA 7B'yi de geçecek
- 3B modeli 800 milyar token ile stabilize edildi; 7B modeli ise 1 trilyon token ile eğitimini tamamlama aşamasında ve geliştirilmeye devam ediyor
2 yorum
Araştırma ve yapay zekanın gelişimi açısından önemli bir olay,
ancak bu tür modellerin ticari kullanımda sorun yaratan kısımlara çözüm sunma ihtimali yüksek değil.
Ticari tarafta, modeli kullanmanın yanı sıra tuning ya da ek filtreler hazırlamak gibi çalışmaların da mutlaka buna eşlik etmesi gerekecek gibi görünüyor.
RedPajama - LLaMA veri setini yeniden oluşturan açık kaynak proje