- 128K bağlam uzunluğunu destekliyor, 8 dili destekliyor ve 405B modeli ekleniyor (8B, 70B, 405B)
- Herkesin ince ayar yapabileceği, rafine edebileceği ve her yere dağıtabileceği açık kaynaklı instruction-tuned yapay zeka modeli
- Yeni duyurulan 405B model, MMLU (genel), Human Eval (kodlama), GSM8K (matematik) gibi benchmark’larda GPT-4o ile neredeyse aynı ya da daha iyi bir seviyeye ulaşıyor
- Esneklik ve kontrol açısından en üst düzey yapay zeka modeli
- Topluluğun sentetik veri üretimi ve model damıtma gibi yeni iş akışlarından yararlanmasına olanak tanıyor
- 15 trilyondan fazla token kullanılarak eğitildi ve 16.000’den fazla H100 GPU kullanıldı
- Yükseltilen 70B model, çoğu benchmark’ta GPT-3.5 Turbo’yu açık ara geride bırakıyor
3 yorum
Vay be, 405B'yi ayağa kaldırmak için GPU'ları nasıl yapılandırmak gerekir acaba.
405B'nin doğrudan ince ayar veya servis verme amacıyla kullanılmak için olmadığı anlaşılıyor. CEO'nun distillation'dan birkaç kez bahsetmesine bakılırsa, hafif modellerin kalitesini artırmak için bir teacher model olarak kullanılan ince ayar amacı taşıyor olabilir.
Hacker News görüşleri
Llama 3.1 modelleri performansını iyileştirmiş
GPT-4o ile Llama 3.1 405B modelinin karşılaştırması
Groq.com üzerinde yeni modellerle ultra düşük gecikmeyle sohbet edilebiliyor
Uygun donanım kullanılırsa, evde de GPT-4o ile rekabet edebilecek bir LLM çalıştırılabiliyor
Ollama, Huggingface, Groq vb. üzerinden modeller yerelde çalıştırılabiliyor
Ollama’da 70B sürümünü çalıştırma deneyimi çok iyiydi
Claude 3.5 Sonnet, kodlama işleri için çok iyi
Açık kaynak modellerin fiyat bilgisi soruluyor