- Veri kümesi oluşturmadan tokenization, prompt tuning, LoRA ve RLHF'ye kadar tüm hattı kuran açık kaynak proje
- Önceden eğitilmiş Open-LLama-V2-pretrain modeli de Hugging Face'te yayımlandı
- FastChat değerlendirme yöntemine göre GPT-3.5 ile karşılaştırıldığında yaklaşık %89 performans gösterdiği söyleniyor (Çince sorular için)
- Eğitim hızı 3620 token/s; bu da orijinal LLama'nın 3370 değerinden biraz daha hızlı (7B model)
- 500B token ile eğitilirse 38.300 GPU saati gerekiyor
- Google Cloud'da 8 adet A100-80G Spot GPU'yu bir saat kullanmanın maliyeti 12,6 dolar
- Toplam maliyet 60.300 dolar
2 yorum
4090 gibi genel tüketiciye yönelik bir GPU ile eğitilirse ne kadar süreceğini merak ediyorum.
Bir yerden tanıdık gelmişti..? diye bakınca şunu buldum
OpenLLaMA - LLaMA'nın açık bir kopyası
Bununla arasında isimde sadece bir tire farkı var ama içerik olarak tamamen farklı bir proje.