- Llama 3'ün ilk iki modeli (önceden eğitilmiş ve talimatla ince ayar yapılmış 8B ve 70B modelleri) yayımlandı
- Geniş kapsamlı sektör benchmark'larında son teknoloji performans gösteriyor ve gelişmiş akıl yürütme gibi yeni yetenekler sunuyor
- Şu anda mevcut en iyi kapalı modellere denk, en iyi açık modeli oluşturmayı hedefliyor. Geliştirici geri bildirimlerini yansıtmayı ve hızlı, sık sürüm çıkarmayı amaçlıyor
- Llama Guard 2, Code Shield, CyberSec Eval 2 gibi yeni güven ve güvenlik araçları tanıtıldı
- Önümüzdeki birkaç ay içinde yeni özellikler, daha uzun context window, ek model boyutları ve daha iyi performans sunulacak; ayrıca Llama 3 araştırma makalesi de paylaşılacak
- AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake gibi platformlarda yakında kullanıma sunulacak; ayrıca AMD, AWS, Dell, Intel, NVIDIA, Qualcomm gibi donanım platformlarında da desteklenecek
- Llama 3 teknolojisiyle geliştirilen Meta AI, artık dünyanın en iyi yapay zeka asistanlarından biri ve kullanıcıların zekasını artırıp yükünü hafifletebilir
Llama 3'ün performansı
- 8B ve 70B parametreli Llama 3 modelleri, Llama 2'ye kıyasla büyük bir sıçrama yaptı ve bu ölçekte LLM modelleri için yeni bir zirveye ulaştı
- Ön eğitim ve sonrasındaki eğitimde yapılan iyileştirmeler sayesinde, önceden eğitilmiş ve talimatla ince ayar yapılmış modeller 8B ve 70B parametre ölçeğinde mevcut en iyi modeller konumunda
- Sonraki eğitim sürecindeki iyileştirmelerle yanlış ret oranı önemli ölçüde azaldı, hizalama iyileşti ve model yanıtlarının çeşitliliği arttı
- Ayrıca akıl yürütme, kod üretimi ve talimat izleme gibi yetenekler ciddi biçimde geliştirildi; böylece Llama 3 daha yönlendirilebilir hale geldi (Steerable)
- Llama 3 geliştirilirken standart benchmark'lardaki model performansı incelendi ve gerçek dünya senaryolarındaki performansın da optimize edilmesi hedeflendi
- Bunun için 12 temel kullanım senaryosunu kapsayan 1.800 prompt içeren yeni, yüksek kaliteli bir insan değerlendirme seti geliştirildi
- Bu değerlendirme seti, 70B talimat izleyen modelin gerçek dünya senaryolarında benzer boyuttaki rakip modellere karşı güçlü performans sergilediğini gösterdi
- Önceden eğitilmiş model de bu ölçekte LLM modelleri için yeni bir son teknoloji düzeyine ulaştı
- Harika bir dil modeli geliştirmek için inovasyon, ölçekleme ve sadelik optimizasyonunun önemli olduğuna inanılıyor
- Bu tasarım felsefesi, Llama 3 projesi boyunca model mimarisi, ön eğitim verisi, ön eğitim ölçeklemesi ve talimatla ince ayar olmak üzere dört temel unsur üzerine odaklanılarak benimsendi
Model mimarisi
- Llama 3'te görece standart, yalnızca decoder tabanlı bir transformer mimarisi tercih edildi
- Llama 2'ye kıyasla birkaç önemli iyileştirme bulunuyor
- Llama 3, dili çok daha verimli kodlayan 128K token söz varlığına sahip bir tokenizer kullanarak model performansını belirgin biçimde artırıyor
- Llama 3 modellerinin çıkarım verimliliğini artırmak için hem 8B hem de 70B boyutlarında grouped-query attention (GQA) benimsendi
- Self-attention'ın belge sınırlarını aşmaması için maske kullanılarak model 8.192 token dizileriyle eğitildi
Eğitim verisi
- En iyi dil modellerini eğitmek için büyük ölçekli ve yüksek kaliteli eğitim veri kümelerinin kürasyonu en kritik unsur olarak görülüyor
- Llama 3, herkese açık kaynaklardan toplanan 15T'den fazla token ile önceden eğitildi
- Eğitim veri kümesi, Llama 2'de kullanılandan 7 kat daha büyük ve 4 kat daha fazla kod içeriyor
- Gelecekteki çok dilli kullanım senaryolarına hazırlık için, Llama 3 ön eğitim veri kümesinin %5'inden fazlası 30'dan fazla dili kapsayan yüksek kaliteli İngilizce dışı verilerden oluşuyor
Ön eğitim ölçeklemesi
- Llama 3 modellerinde ön eğitim verisini etkili biçimde kullanmak için ön eğitim ölçeklemesine ciddi emek harcandı
- Özellikle, downstream benchmark değerlendirmeleri için ayrıntılı bir dizi scaling law geliştirildi
- Bu scaling law'lar sayesinde en uygun veri karışımını seçmek ve eğitim hesaplama kaynaklarını en iyi şekilde kullanmak konusunda bilinçli kararlar alınabiliyor
Talimatla ince ayar
- Sohbet kullanım senaryolarında önceden eğitilmiş modelin potansiyelini tam olarak ortaya çıkarmak için talimat ayarlama yaklaşımında da yenilik yapıldı
- Sonraki eğitim yaklaşımı; supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) ve direct policy optimization (DPO) kombinasyonundan oluşuyor
- SFT'de kullanılan prompt'ların kalitesi ile PPO ve DPO'da kullanılan tercih sıralamaları, hizalanmış modelin performansı üzerinde aşırı büyük etki yaratıyor
Llama 3 ile geliştirme
- Meta'nın vizyonu, geliştiricilerin Llama 3'ü özelleştirerek ilgili kullanım senaryolarını destekleyebilmesi, en iyi uygulamaları kolayca benimsemesi ve açık ekosistemi geliştirebilmesi
- Bu sürümde, Llama Guard 2 ve Cybersec Eval 2 ile birlikte güncellenmiş bileşenler içeren yeni güven ve güvenlik araçları ile LLM tarafından üretilen güvensiz kodu filtrelemek için çıkarım zamanlı bir guardrail olan Code Shield tanıtıldı
- Ayrıca Llama 3, LLM'leri kolayca yazmak, ince ayar yapmak ve denemek için yeni bir PyTorch tabanlı kütüphane olan torchtune ile birlikte geliştirildi
Sorumlu geliştirme ve dağıtım için sistem düzeyinde yaklaşım
- Llama 3 modelleri, mümkün olduğunca faydalı olurken aynı zamanda sektör lideri düzeyde sorumlu dağıtım yaklaşımını güvence altına alacak şekilde tasarlandı
- Bunun için Llama'nın sorumlu geliştirilmesi ve dağıtılması adına yeni bir sistem düzeyinde yaklaşım benimsendi
- Llama modelleri, geliştiricilerin kendi özgün nihai hedeflerini göz önünde bulundurarak tasarladığı sistemlerin temel yapı taşı olarak ele alınıyor
- Talimatla ince ayar, model güvenliğini sağlamada önemli rol oynuyor
- Talimatla ince ayar yapılmış modeller, iç ve dış ekiplerin çalışmalarıyla güvenlik açısından red team testlerinden geçiriliyor
- Bu çalışmalar yinelemeli biçimde sürdürülüyor ve yayımlanan modellerin güvenlik ince ayarlarında kullanılıyor
- Llama Guard modeli, prompt ve yanıt güvenliğinin temelini oluşturuyor ve uygulama gereksinimlerine göre yeni sınıflandırmaların kolayca oluşturulmasına imkan veriyor
- Yeni Llama Guard 2, sektör standardı desteği için kısa süre önce duyurulan MLCommons taksonomisini kullanıyor
- CyberSecEval 2, LLM'lerin kod yorumlayıcısını kötüye kullanma eğilimi, saldırgan siber güvenlik yetenekleri ve prompt injection saldırılarına açıklık ölçümünü ekleyerek önceki sürümü genişletiyor
- Code Shield, LLM tarafından üretilen güvensiz koda karşı çıkarım zamanında filtreleme sağlayarak güvensiz kod önerileri, kod yorumlayıcısının kötüye kullanımı ve güvenli komut yürütmeyle ilgili riskleri azaltıyor
Llama 3'ün geniş ölçekli dağıtımı
- Llama 3, bulut sağlayıcıları ve model API sağlayıcıları dahil başlıca platformlarda yakında kullanıma sunulacak
- Benchmark'lara göre tokenizer, Llama 2'ye kıyasla %15'e kadar daha az token üreterek token verimliliğini artırıyor
- Ayrıca grouped-query attention (GQA), Llama 3 8B'ye de eklendi
Llama 3'ün gelecek planı
- Llama 3 8B ve 70B modelleri, Llama 3 yayın planının yalnızca başlangıcı
- Önümüzdeki aylarda multimodal, çok dilli diyalog yetenekleri, çok daha uzun context window ve genel olarak daha güçlü kabiliyetler sunan birden fazla model yayımlanacak
- Llama 3 eğitimi tamamlandığında ayrıntılı bir araştırma makalesi de yayımlanacak
2 yorum
Önce diğer bulutları bilmiyorum ama Azure AI Studio'ya Mixtral 8x22B ile birlikte Llma-3 (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct) zaten eklenmiş görünüyor.