8 puan yazan xguru 2023-05-16 | 2 yorum | WhatsApp'ta paylaş
  • Veri kümesi oluşturmadan tokenization, prompt tuning, LoRA ve RLHF'ye kadar tüm hattı kuran açık kaynak proje
  • Önceden eğitilmiş Open-LLama-V2-pretrain modeli de Hugging Face'te yayımlandı
  • FastChat değerlendirme yöntemine göre GPT-3.5 ile karşılaştırıldığında yaklaşık %89 performans gösterdiği söyleniyor (Çince sorular için)
  • Eğitim hızı 3620 token/s; bu da orijinal LLama'nın 3370 değerinden biraz daha hızlı (7B model)
  • 500B token ile eğitilirse 38.300 GPU saati gerekiyor
    • Google Cloud'da 8 adet A100-80G Spot GPU'yu bir saat kullanmanın maliyeti 12,6 dolar
    • Toplam maliyet 60.300 dolar

2 yorum

 
zer0ne 2023-05-16

4090 gibi genel tüketiciye yönelik bir GPU ile eğitilirse ne kadar süreceğini merak ediyorum.

 
xguru 2023-05-16

Bir yerden tanıdık gelmişti..? diye bakınca şunu buldum
OpenLLaMA - LLaMA'nın açık bir kopyası
Bununla arasında isimde sadece bir tire farkı var ama içerik olarak tamamen farklı bir proje.