Meta, Llama 3.1’i duyurdu

xguru · 2024-07-24T09:04:18+09:00

128K bağlam uzunluğunu destekliyor, 8 dili destekliyor ve 405B modeli ekleniyor (8B, 70B, 405B) Herkesin ince ayar yapabileceği, rafine edebileceği ve her yere dağıtabileceği açık kaynaklı instruction-tuned yapay zeka modeli Yeni duyurulan 405B model, MMLU (genel), Human Eval (kodlama), GSM8K (matematik) gibi benchmark’larda GPT-4o ile neredeyse aynı ya da daha iyi bir seviyeye ulaşıyor Esneklik ve kontrol açısından en üst düzey yapay zeka modeli Topluluğun sentetik veri üretimi ve model damıtma gibi yeni iş akışlarından yararlanmasına olanak tanıyor 15 trilyondan fazla token kullanılarak eğitildi ve 16.000’den fazla H100 GPU kullanıldı Yükseltilen 70B model, çoğu benchmark’ta GPT-3.5 Turbo’yu açık ara geride bırakıyor

(ai.meta.com)

10 puan yazan xguru 2024-07-24 | 3 yorum | WhatsApp'ta paylaş

128K bağlam uzunluğunu destekliyor, 8 dili destekliyor ve 405B modeli ekleniyor (8B, 70B, 405B)
- Herkesin ince ayar yapabileceği, rafine edebileceği ve her yere dağıtabileceği açık kaynaklı instruction-tuned yapay zeka modeli
Yeni duyurulan 405B model, MMLU (genel), Human Eval (kodlama), GSM8K (matematik) gibi benchmark’larda GPT-4o ile neredeyse aynı ya da daha iyi bir seviyeye ulaşıyor
- Esneklik ve kontrol açısından en üst düzey yapay zeka modeli
- Topluluğun sentetik veri üretimi ve model damıtma gibi yeni iş akışlarından yararlanmasına olanak tanıyor
- 15 trilyondan fazla token kullanılarak eğitildi ve 16.000’den fazla H100 GPU kullanıldı
Yükseltilen 70B model, çoğu benchmark’ta GPT-3.5 Turbo’yu açık ara geride bırakıyor

3 yorum

wedding 2024-07-24

Vay be, 405B'yi ayağa kaldırmak için GPU'ları nasıl yapılandırmak gerekir acaba.

gcback 2024-07-24

405B'nin doğrudan ince ayar veya servis verme amacıyla kullanılmak için olmadığı anlaşılıyor. CEO'nun distillation'dan birkaç kez bahsetmesine bakılırsa, hafif modellerin kalitesini artırmak için bir teacher model olarak kullanılan ince ayar amacı taşıyor olabilir.

xguru 2024-07-24

Hacker News görüşleri

Llama 3.1 modelleri performansını iyileştirmiş
- 8B ve 70B modelleri, Llama 3’e göre daha iyi performans gösteriyor
- 405B modeli, GPT-4o, GPT-4 turbo, Claude 3.5 Sonnet ve Claude 3 Opus ile rekabet edebilecek seviyede
GPT-4o ile Llama 3.1 405B modelinin karşılaştırması
- MMLU: GPT-4o 88.7, Llama 3.1 405B 88.6
- GPQA: GPT-4o 53.6, Llama 3.1 405B 51.1
- MATH: GPT-4o 76.6, Llama 3.1 405B 73.8
- HumanEval: GPT-4o 90.2, Llama 3.1 405B 89.0
- MGSM: GPT-4o 90.5, Llama 3.1 405B 91.6
Groq.com üzerinde yeni modellerle ultra düşük gecikmeyle sohbet edilebiliyor
- 8B ve 70B için API erişimi mevcut
- 405B API’ye yalnızca seçilmiş müşteriler erişebiliyor
Uygun donanım kullanılırsa, evde de GPT-4o ile rekabet edebilecek bir LLM çalıştırılabiliyor
Ollama, Huggingface, Groq vb. üzerinden modeller yerelde çalıştırılabiliyor
- LLMStack kullanılarak model yerelde test edilebilir veya uygulamalar hızlıca geliştirilebilir
Ollama’da 70B sürümünü çalıştırma deneyimi çok iyiydi
- Kılavuzları ve feragatnameleri kapatan bir komut çalıştırılabildi
- Mühendisin olası önyargılarını azaltmaya yönelik komutların bir listesi alındı
Claude 3.5 Sonnet, kodlama işleri için çok iyi
- Artifact özelliğiyle birlikte kodlama benchmark’larında hâlâ en iyi durumda
Açık kaynak modellerin fiyat bilgisi soruluyor
- Kendi kendine barındırma çok ilgi çekici, ancak token başına barındırılan çıkarım maliyeti OpenAI ve Anthropic’e kıyasla daha az rekabetçi
- Örnek: Llama 3 70B çeşitli platformlarda milyon token başına $1 ile $10 arasında, Claude Sonnet 3.5 ise milyon token başına $3

Meta, Llama 3.1’i duyurdu

İlgili okumalar

3 yorum

Hacker News görüşleri