14 puan yazan xguru 2023-04-19 | 1 yorum | WhatsApp'ta paylaş
  • LLaMA, Alpaca, Vicuna gibi yarı açık modeller yerine yeniden üretilebilir ve tamamen açık bir dil modeli oluşturmayı amaçlayan proje
  • 3 bileşenden oluşuyor
    • Yüksek kalite ve geniş kapsama sahip ön eğitim verisi
    • Bu veriye dayanarak büyük ölçekte eğitilmiş temel model
    • Temel modeli güvenli ve kullanılabilir hale getirmek için instruction tuning verisi ve modeli
  • İlk bileşen olarak RedPajama-Data-1T veri seti yayımlandı
    • LLaMA makalesinde açıklanan tarife göre oluşturulan, 1,2 trilyon token’dan oluşan tamamen açık veri seti
    • HuggingFace üzerinden indirilebilir. Toplam 5 TB (3 TB sıkıştırılmış olarak dağıtılıyor)
    • 7 veri parçasından oluşuyor: her biri ön işleme ve filtrelemeden geçirilerek LLaMA makalesine benzer sayılarda hazırlanmış durumda (ön işleme yöntemi ve filtreler de GitHub’da açıklandı)
      • CommonCrawl (878b) - web tarama verisi
      • C4 (175b) - Common Crawl’un devasa, temizlenmiş sürümü
      • GitHub (59b) - lisans ve kaliteye göre filtrelenmiş GitHub verisi
      • arXiv (28b) - bilimsel makaleler ve yazılar (boilerplate kaldırıldı)
      • Books (26b) - içerik benzerliğine göre tekrarları kaldırılmış açık kitap corpus’u
      • Wikipedia (24b) - Wikipedia’nın bazı sayfaları (boilerplate kaldırıldı)
      • StackExchange (20b) - StackExchange’in bazı sayfaları (boilerplate kaldırıldı)
  • Sonraki adım güçlü bir temel modeli eğitmek; birkaç hafta içinde yayımlanması planlanıyor
  • Komut ayarı için OpenChatkit tarafından sağlanan veriler kullanılacak