RedPajama 3B, 7B modelleri yayınlandı

xguru · 2023-05-08T10:01:01+09:00

Tamamen açık bir dil modeli oluşturmayı amaçlayan proje 3 hafta önce yayınlanan RedPajama-Data-1T veri seti temel alınarak 3B (tamamlandı) ve 7B (önizleme) parametreli RedPajama-INCITE modelleri yayınlandı Base model Instruction-Tuned model Chat modeli 3B modeli kendi sınıfında en güçlü model. Küçük boyutu sayesinde hızlı ve 5 yıl önce çıkan RTX 2070 gibi donanımlarda da çalışabiliyor Komut ayarlamalı 7B model sürümü, HELM benchmark'ında LLaMA 7B'den 3 puan daha yüksek 7B modeli (eğitimin %80'i tamamlandı) şimdiden Pythia 7B modelini geçti 7B eğitimi birkaç hafta içinde tamamlandığında LLaMA 7B'yi de geçecek 3B modeli 800 milyar token ile stabilize edildi; 7B modeli ise 1 trilyon token ile eğitimini tamamlama aşamasında ve geliştirilmeye devam ediyor

(together.xyz)

7 puan yazan xguru 2023-05-08 | 2 yorum | WhatsApp'ta paylaş

Tamamen açık bir dil modeli oluşturmayı amaçlayan proje
3 hafta önce yayınlanan RedPajama-Data-1T veri seti temel alınarak 3B (tamamlandı) ve 7B (önizleme) parametreli RedPajama-INCITE modelleri yayınlandı
- Base model
- Instruction-Tuned model
- Chat modeli
3B modeli kendi sınıfında en güçlü model. Küçük boyutu sayesinde hızlı ve 5 yıl önce çıkan RTX 2070 gibi donanımlarda da çalışabiliyor
Komut ayarlamalı 7B model sürümü, HELM benchmark'ında LLaMA 7B'den 3 puan daha yüksek
7B modeli (eğitimin %80'i tamamlandı) şimdiden Pythia 7B modelini geçti
7B eğitimi birkaç hafta içinde tamamlandığında LLaMA 7B'yi de geçecek
3B modeli 800 milyar token ile stabilize edildi; 7B modeli ise 1 trilyon token ile eğitimini tamamlama aşamasında ve geliştirilmeye devam ediyor

2 yorum

coremaker 2023-05-08

Araştırma ve yapay zekanın gelişimi açısından önemli bir olay,
ancak bu tür modellerin ticari kullanımda sorun yaratan kısımlara çözüm sunma ihtimali yüksek değil.
Ticari tarafta, modeli kullanmanın yanı sıra tuning ya da ek filtreler hazırlamak gibi çalışmaların da mutlaka buna eşlik etmesi gerekecek gibi görünüyor.

xguru 2023-05-08

RedPajama - LLaMA veri setini yeniden oluşturan açık kaynak proje

RedPajama 3B, 7B modelleri yayınlandı

İlgili okumalar

2 yorum