RedPajama - LLaMA veri setini yeniden oluşturan açık kaynak proje

xguru · 2023-04-19T10:03:01+09:00

LLaMA, Alpaca, Vicuna gibi yarı açık modeller yerine yeniden üretilebilir ve tamamen açık bir dil modeli oluşturmayı amaçlayan proje 3 bileşenden oluşuyor Yüksek kalite ve geniş kapsama sahip ön eğitim verisi Bu veriye dayanarak büyük ölçekte eğitilmiş temel model Temel modeli güvenli ve kullanılabilir hale getirmek için instruction tuning verisi ve modeli İlk bileşen olarak RedPajama-Data-1T veri seti yayımlandı LLaMA makalesinde açıklanan tarife göre oluşturulan, 1,2 trilyon token’dan oluşan tamamen açık veri seti HuggingFace üzerinden indirilebilir. Toplam 5 TB (3 TB sıkıştırılmış olarak dağıtılıyor) 7 veri parçasından oluşuyor: her biri ön işleme ve filtrelemeden geçirilerek LLaMA makalesine benzer sayılarda hazırlanmış durumda (ön işleme yöntemi ve filtreler de GitHub’da açıklandı) CommonCrawl (878b) - web tarama verisi C4 (175b) - Common Crawl’un devasa, temizlenmiş sürümü GitHub (59b) - lisans ve kaliteye göre filtrelenmiş GitHub verisi arXiv (28b) - bilimsel makaleler ve yazılar (boilerplate kaldırıldı) Books (26b) - içerik benzerliğine göre tekrarları kaldırılmış açık kitap corpus’u Wikipedia (24b) - Wikipedia’nın bazı sayfaları (boilerplate kaldırıldı) StackExchange (20b) - StackExchange’in bazı sayfaları (boilerplate kaldırıldı) Sonraki adım güçlü bir temel modeli eğitmek; birkaç hafta içinde yayımlanması planlanıyor Komut ayarı için OpenChatkit tarafından sağlanan veriler kullanılacak

(together.xyz)

14 puan yazan xguru 2023-04-19 | 1 yorum | WhatsApp'ta paylaş

LLaMA, Alpaca, Vicuna gibi yarı açık modeller yerine yeniden üretilebilir ve tamamen açık bir dil modeli oluşturmayı amaçlayan proje
3 bileşenden oluşuyor
- Yüksek kalite ve geniş kapsama sahip ön eğitim verisi
- Bu veriye dayanarak büyük ölçekte eğitilmiş temel model
- Temel modeli güvenli ve kullanılabilir hale getirmek için instruction tuning verisi ve modeli
İlk bileşen olarak RedPajama-Data-1T veri seti yayımlandı
- LLaMA makalesinde açıklanan tarife göre oluşturulan, 1,2 trilyon token’dan oluşan tamamen açık veri seti
- HuggingFace üzerinden indirilebilir. Toplam 5 TB (3 TB sıkıştırılmış olarak dağıtılıyor)
- 7 veri parçasından oluşuyor: her biri ön işleme ve filtrelemeden geçirilerek LLaMA makalesine benzer sayılarda hazırlanmış durumda (ön işleme yöntemi ve filtreler de GitHub’da açıklandı)
  - CommonCrawl (878b) - web tarama verisi
  - C4 (175b) - Common Crawl’un devasa, temizlenmiş sürümü
  - GitHub (59b) - lisans ve kaliteye göre filtrelenmiş GitHub verisi
  - arXiv (28b) - bilimsel makaleler ve yazılar (boilerplate kaldırıldı)
  - Books (26b) - içerik benzerliğine göre tekrarları kaldırılmış açık kitap corpus’u
  - Wikipedia (24b) - Wikipedia’nın bazı sayfaları (boilerplate kaldırıldı)
  - StackExchange (20b) - StackExchange’in bazı sayfaları (boilerplate kaldırıldı)
Sonraki adım güçlü bir temel modeli eğitmek; birkaç hafta içinde yayımlanması planlanıyor
Komut ayarı için OpenChatkit tarafından sağlanan veriler kullanılacak

1 yorum

xguru 2023-04-19

OpenChatKit duyuruldu - ChatGPT'yi hayata geçirebilen açık kaynak proje

RedPajama - LLaMA veri setini yeniden oluşturan açık kaynak proje

İlgili okumalar

1 yorum