- LLaMA, Alpaca, Vicuna gibi yarı açık modeller yerine yeniden üretilebilir ve tamamen açık bir dil modeli oluşturmayı amaçlayan proje
- 3 bileşenden oluşuyor
- Yüksek kalite ve geniş kapsama sahip ön eğitim verisi
- Bu veriye dayanarak büyük ölçekte eğitilmiş temel model
- Temel modeli güvenli ve kullanılabilir hale getirmek için instruction tuning verisi ve modeli
- İlk bileşen olarak RedPajama-Data-1T veri seti yayımlandı
- LLaMA makalesinde açıklanan tarife göre oluşturulan, 1,2 trilyon token’dan oluşan tamamen açık veri seti
- HuggingFace üzerinden indirilebilir. Toplam 5 TB (3 TB sıkıştırılmış olarak dağıtılıyor)
- 7 veri parçasından oluşuyor: her biri ön işleme ve filtrelemeden geçirilerek LLaMA makalesine benzer sayılarda hazırlanmış durumda (ön işleme yöntemi ve filtreler de GitHub’da açıklandı)
- CommonCrawl (878b) - web tarama verisi
- C4 (175b) - Common Crawl’un devasa, temizlenmiş sürümü
- GitHub (59b) - lisans ve kaliteye göre filtrelenmiş GitHub verisi
- arXiv (28b) - bilimsel makaleler ve yazılar (boilerplate kaldırıldı)
- Books (26b) - içerik benzerliğine göre tekrarları kaldırılmış açık kitap corpus’u
- Wikipedia (24b) - Wikipedia’nın bazı sayfaları (boilerplate kaldırıldı)
- StackExchange (20b) - StackExchange’in bazı sayfaları (boilerplate kaldırıldı)
- Sonraki adım güçlü bir temel modeli eğitmek; birkaç hafta içinde yayımlanması planlanıyor
- Komut ayarı için OpenChatkit tarafından sağlanan veriler kullanılacak
1 yorum
OpenChatKit duyuruldu - ChatGPT'yi hayata geçirebilen açık kaynak proje