Open-LLaMa - LLM geliştirmek için eksiksiz eğitim hattı

xguru · 2023-05-16T10:02:01+09:00

Veri kümesi oluşturmadan tokenization, prompt tuning, LoRA ve RLHF'ye kadar tüm hattı kuran açık kaynak proje Önceden eğitilmiş Open-LLama-V2-pretrain modeli de Hugging Face'te yayımlandı FastChat değerlendirme yöntemine göre GPT-3.5 ile karşılaştırıldığında yaklaşık %89 performans gösterdiği söyleniyor (Çince sorular için) Eğitim hızı 3620 token/s; bu da orijinal LLama'nın 3370 değerinden biraz daha hızlı (7B model) 500B token ile eğitilirse 38.300 GPU saati gerekiyor Google Cloud'da 8 adet A100-80G Spot GPU'yu bir saat kullanmanın maliyeti 12,6 dolar Toplam maliyet 60.300 dolar

(github.com/s-JoL)

8 puan yazan xguru 2023-05-16 | 2 yorum | WhatsApp'ta paylaş

Veri kümesi oluşturmadan tokenization, prompt tuning, LoRA ve RLHF'ye kadar tüm hattı kuran açık kaynak proje
Önceden eğitilmiş Open-LLama-V2-pretrain modeli de Hugging Face'te yayımlandı
FastChat değerlendirme yöntemine göre GPT-3.5 ile karşılaştırıldığında yaklaşık %89 performans gösterdiği söyleniyor (Çince sorular için)
Eğitim hızı 3620 token/s; bu da orijinal LLama'nın 3370 değerinden biraz daha hızlı (7B model)
500B token ile eğitilirse 38.300 GPU saati gerekiyor
- Google Cloud'da 8 adet A100-80G Spot GPU'yu bir saat kullanmanın maliyeti 12,6 dolar
- Toplam maliyet 60.300 dolar

2 yorum

zer0ne 2023-05-16

4090 gibi genel tüketiciye yönelik bir GPU ile eğitilirse ne kadar süreceğini merak ediyorum.

xguru 2023-05-16

Bir yerden tanıdık gelmişti..? diye bakınca şunu buldum
OpenLLaMA - LLaMA'nın açık bir kopyası
Bununla arasında isimde sadece bir tire farkı var ama içerik olarak tamamen farklı bir proje.

Open-LLaMa - LLM geliştirmek için eksiksiz eğitim hattı

İlgili okumalar

2 yorum