Meta, Llama 3'ü duyurdu

xguru · 2024-04-19T08:26:25+09:00

Llama 3'ün ilk iki modeli (önceden eğitilmiş ve talimatla ince ayar yapılmış 8B ve 70B modelleri) yayımlandı Geniş kapsamlı sektör benchmark'larında son teknoloji performans gösteriyor ve gelişmiş akıl yürütme gibi yeni yetenekler sunuyor Şu anda mevcut en iyi kapalı modellere denk, en iyi açık modeli oluşturmayı hedefliyor. Geliştirici geri bildirimlerini yansıtmayı ve hızlı, sık sürüm çıkarmayı amaçlıyor Llama Guard 2, Code Shield, CyberSec Eval 2 gibi yeni güven ve güvenlik araçları tanıtıldı Önümüzdeki birkaç ay içinde yeni özellikler, daha uzun context window, ek model boyutları ve daha iyi performans sunulacak; ayrıca Llama 3 araştırma makalesi de paylaşılacak AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake gibi platformlarda yakında kullanıma sunulacak; ayrıca AMD, AWS, Dell, Intel, NVIDIA, Qualcomm gibi donanım platformlarında da desteklenecek Llama 3 teknolojisiyle geliştirilen Meta AI, artık dünyanın en iyi yapay zeka asistanlarından biri ve kullanıcıların zekasını artırıp yükünü hafifletebilir Llama 3'ün performansı 8B ve 70B parametreli Llama 3 modelleri, Llama 2'ye kıyasla büyük bir sıçrama yaptı ve bu ölçekte LLM modelleri için yeni bir zirveye ulaştı Ön eğitim ve sonrasındaki eğitimde yapılan iyileştirmeler sayesinde, önceden eğitilmiş ve talimatla ince ayar yapılmış modeller 8B ve 70B parametre ölçeğinde mevcut en iyi modeller konumunda Sonraki eğitim sürecindeki iyileştirmelerle yanlış ret oranı önemli ölçüde azaldı, hizalama iyileşti ve model yanıtlarının çeşitliliği arttı Ayrıca akıl yürütme, kod üretimi ve talimat izleme gibi yetenekler ciddi biçimde geliştirildi; böylece Llama 3 daha yönlendirilebilir hale geldi (Steerable) Llama 3 geliştirilirken standart benchmark'lardaki model performansı incelendi ve gerçek dünya senaryolarındaki performansın da optimize edilmesi hedeflendi Bunun için 12 temel kullanım senaryosunu kapsayan 1.800 prompt içeren yeni, yüksek kaliteli bir insan değerlendirme seti geliştirildi Bu değerlendirme seti, 70B talimat izleyen modelin gerçek dünya senaryolarında benzer boyuttaki rakip modellere karşı güçlü performans sergilediğini gösterdi Önceden eğitilmiş model de bu ölçekte LLM modelleri için yeni bir son teknoloji düzeyine ulaştı Harika bir dil modeli geliştirmek için inovasyon, ölçekleme ve sadelik optimizasyonunun önemli olduğuna inanılıyor Bu tasarım felsefesi, Llama 3 projesi boyunca model mimarisi, ön eğitim verisi, ön eğitim ölçeklemesi ve talimatla ince ayar olmak üzere dört temel unsur üzerine odaklanılarak benimsendi Model mimarisi Llama 3'te görece standart, yalnızca decoder tabanlı bir transformer mimarisi tercih edildi Llama 2'ye kıyasla birkaç önemli iyileştirme bulunuyor Llama 3, dili çok daha verimli kodlayan 128K token söz varlığına sahip bir tokenizer kullanarak model performansını belirgin biçimde artırıyor Llama 3 modellerinin çıkarım verimliliğini artırmak için hem 8B hem de 70B boyutlarında grouped-query attention (GQA) benimsendi Self-attention'ın belge sınırlarını aşmaması için maske kullanılarak model 8.192 token dizileriyle eğitildi Eğitim verisi En iyi dil modellerini eğitmek için büyük ölçekli ve yüksek kaliteli eğitim veri kümelerinin kürasyonu en kritik unsur olarak görülüyor Llama 3, herkese açık kaynaklardan toplanan 15T'den fazla token ile önceden eğitildi Eğitim veri kümesi, Llama 2'de kullanılandan 7 kat daha büyük ve 4 kat daha fazla kod içeriyor Gelecekteki çok dilli kullanım senaryolarına hazırlık için, Llama 3 ön eğitim veri kümesinin %5'inden fazlası 30'dan fazla dili kapsayan yüksek kaliteli İngilizce dışı verilerden oluşuyor Ön eğitim ölçeklemesi Llama 3 modellerinde ön eğitim verisini etkili biçimde kullanmak için ön eğitim ölçeklemesine ciddi emek harcandı Özellikle, downstream benchmark değerlendirmeleri için ayrıntılı bir dizi scaling law geliştirildi Bu scaling law'lar sayesinde en uygun veri karışımını seçmek ve eğitim hesaplama kaynaklarını en iyi şekilde kullanmak konusunda bilinçli kararlar alınabiliyor Talimatla ince ayar Sohbet kullanım senaryolarında önceden eğitilmiş modelin potansiyelini tam olarak ortaya çıkarmak için talimat ayarlama yaklaşımında da yenilik yapıldı Sonraki eğitim yaklaşımı; supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) ve direct policy optimization (DPO) kombinasyonundan oluşuyor SFT'de kullanılan prompt'ların kalitesi ile PPO ve DPO'da kullanılan tercih sıralamaları, hizalanmış modelin performansı üzerinde aşırı büyük etki yaratıyor Llama 3 ile geliştirme Meta'nın vizyonu, geliştiricilerin Llama 3'ü özelleştirerek ilgili kullanım senaryolarını destekleyebilmesi, en iyi uygulamaları kolayca benimsemesi ve açık ekosistemi geliştirebilmesi Bu sürümde, Llama Guard 2 ve Cybersec Eval 2 ile birlikte güncellenmiş bileşenler içeren yeni güven ve güvenlik araçları ile LLM tarafından üretilen güvensiz kodu filtrelemek için çıkarım zamanlı bir guardrail olan Code Shield tanıtıldı Ayrıca Llama 3, LLM'leri kolayca yazmak, ince ayar yapmak ve denemek için yeni bir PyTorch tabanlı kütüphane olan torchtune ile birlikte geliştirildi Sorumlu geliştirme ve dağıtım için sistem düzeyinde yaklaşım Llama 3 modelleri, mümkün olduğunca faydalı olurken aynı zamanda sektör lideri düzeyde sorumlu dağıtım yaklaşımını güvence altına alacak şekilde tasarlandı Bunun için Llama'nın sorumlu geliştirilmesi ve dağıtılması adına yeni bir sistem düzeyinde yaklaşım benimsendi Llama modelleri, geliştiricilerin kendi özgün nihai hedeflerini göz önünde bulundurarak tasarladığı sistemlerin temel yapı taşı olarak ele alınıyor Talimatla ince ayar, model güvenliğini sağlamada önemli rol oynuyor Talimatla ince ayar yapılmış modeller, iç ve dış ekiplerin çalışmalarıyla güvenlik açısından red team testlerinden geçiriliyor Bu çalışmalar yinelemeli biçimde sürdürülüyor ve yayımlanan modellerin güvenlik ince ayarlarında kullanılıyor Llama Guard modeli, prompt ve yanıt güvenliğinin temelini oluşturuyor ve uygulama gereksinimlerine göre yeni sınıflandırmaların kolayca oluşturulmasına imkan veriyor Yeni Llama Guard 2, sektör standardı desteği için kısa süre önce duyurulan MLCommons taksonomisini kullanıyor CyberSecEval 2, LLM'lerin kod yorumlayıcısını kötüye kullanma eğilimi, saldırgan siber güvenlik yetenekleri ve prompt injection saldırılarına açıklık ölçümünü ekleyerek önceki sürümü genişletiyor Code Shield, LLM tarafından üretilen güvensiz koda karşı çıkarım zamanında filtreleme sağlayarak güvensiz kod önerileri, kod yorumlayıcısının kötüye kullanımı ve güvenli komut yürütmeyle ilgili riskleri azaltıyor Llama 3'ün geniş ölçekli dağıtımı Llama 3, bulut sağlayıcıları ve model API sağlayıcıları dahil başlıca platformlarda yakında kullanıma sunulacak Benchmark'lara göre tokenizer, Llama 2'ye kıyasla %15'e kadar daha az token üreterek token verimliliğini artırıyor Ayrıca grouped-query attention (GQA), Llama 3 8B'ye de eklendi Llama 3'ün gelecek planı Llama 3 8B ve 70B modelleri, Llama 3 yayın planının yalnızca başlangıcı Önümüzdeki aylarda multimodal, çok dilli diyalog yetenekleri, çok daha uzun context window ve genel olarak daha güçlü kabiliyetler sunan birden fazla model yayımlanacak Llama 3 eğitimi tamamlandığında ayrıntılı bir araştırma makalesi de yayımlanacak

(ai.meta.com)

22 puan yazan xguru 2024-04-19 | 2 yorum | WhatsApp'ta paylaş

Llama 3'ün ilk iki modeli (önceden eğitilmiş ve talimatla ince ayar yapılmış 8B ve 70B modelleri) yayımlandı
Geniş kapsamlı sektör benchmark'larında son teknoloji performans gösteriyor ve gelişmiş akıl yürütme gibi yeni yetenekler sunuyor
Şu anda mevcut en iyi kapalı modellere denk, en iyi açık modeli oluşturmayı hedefliyor. Geliştirici geri bildirimlerini yansıtmayı ve hızlı, sık sürüm çıkarmayı amaçlıyor
Llama Guard 2, Code Shield, CyberSec Eval 2 gibi yeni güven ve güvenlik araçları tanıtıldı
Önümüzdeki birkaç ay içinde yeni özellikler, daha uzun context window, ek model boyutları ve daha iyi performans sunulacak; ayrıca Llama 3 araştırma makalesi de paylaşılacak
AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake gibi platformlarda yakında kullanıma sunulacak; ayrıca AMD, AWS, Dell, Intel, NVIDIA, Qualcomm gibi donanım platformlarında da desteklenecek
Llama 3 teknolojisiyle geliştirilen Meta AI, artık dünyanın en iyi yapay zeka asistanlarından biri ve kullanıcıların zekasını artırıp yükünü hafifletebilir

Llama 3'ün performansı

8B ve 70B parametreli Llama 3 modelleri, Llama 2'ye kıyasla büyük bir sıçrama yaptı ve bu ölçekte LLM modelleri için yeni bir zirveye ulaştı
Ön eğitim ve sonrasındaki eğitimde yapılan iyileştirmeler sayesinde, önceden eğitilmiş ve talimatla ince ayar yapılmış modeller 8B ve 70B parametre ölçeğinde mevcut en iyi modeller konumunda
Sonraki eğitim sürecindeki iyileştirmelerle yanlış ret oranı önemli ölçüde azaldı, hizalama iyileşti ve model yanıtlarının çeşitliliği arttı
Ayrıca akıl yürütme, kod üretimi ve talimat izleme gibi yetenekler ciddi biçimde geliştirildi; böylece Llama 3 daha yönlendirilebilir hale geldi (Steerable)
Llama 3 geliştirilirken standart benchmark'lardaki model performansı incelendi ve gerçek dünya senaryolarındaki performansın da optimize edilmesi hedeflendi
Bunun için 12 temel kullanım senaryosunu kapsayan 1.800 prompt içeren yeni, yüksek kaliteli bir insan değerlendirme seti geliştirildi
Bu değerlendirme seti, 70B talimat izleyen modelin gerçek dünya senaryolarında benzer boyuttaki rakip modellere karşı güçlü performans sergilediğini gösterdi
Önceden eğitilmiş model de bu ölçekte LLM modelleri için yeni bir son teknoloji düzeyine ulaştı
Harika bir dil modeli geliştirmek için inovasyon, ölçekleme ve sadelik optimizasyonunun önemli olduğuna inanılıyor
Bu tasarım felsefesi, Llama 3 projesi boyunca model mimarisi, ön eğitim verisi, ön eğitim ölçeklemesi ve talimatla ince ayar olmak üzere dört temel unsur üzerine odaklanılarak benimsendi

Model mimarisi

Llama 3'te görece standart, yalnızca decoder tabanlı bir transformer mimarisi tercih edildi
Llama 2'ye kıyasla birkaç önemli iyileştirme bulunuyor
- Llama 3, dili çok daha verimli kodlayan 128K token söz varlığına sahip bir tokenizer kullanarak model performansını belirgin biçimde artırıyor
- Llama 3 modellerinin çıkarım verimliliğini artırmak için hem 8B hem de 70B boyutlarında grouped-query attention (GQA) benimsendi
- Self-attention'ın belge sınırlarını aşmaması için maske kullanılarak model 8.192 token dizileriyle eğitildi

Eğitim verisi

En iyi dil modellerini eğitmek için büyük ölçekli ve yüksek kaliteli eğitim veri kümelerinin kürasyonu en kritik unsur olarak görülüyor
Llama 3, herkese açık kaynaklardan toplanan 15T'den fazla token ile önceden eğitildi
Eğitim veri kümesi, Llama 2'de kullanılandan 7 kat daha büyük ve 4 kat daha fazla kod içeriyor
Gelecekteki çok dilli kullanım senaryolarına hazırlık için, Llama 3 ön eğitim veri kümesinin %5'inden fazlası 30'dan fazla dili kapsayan yüksek kaliteli İngilizce dışı verilerden oluşuyor

Ön eğitim ölçeklemesi

Llama 3 modellerinde ön eğitim verisini etkili biçimde kullanmak için ön eğitim ölçeklemesine ciddi emek harcandı
Özellikle, downstream benchmark değerlendirmeleri için ayrıntılı bir dizi scaling law geliştirildi
Bu scaling law'lar sayesinde en uygun veri karışımını seçmek ve eğitim hesaplama kaynaklarını en iyi şekilde kullanmak konusunda bilinçli kararlar alınabiliyor

Talimatla ince ayar

Sohbet kullanım senaryolarında önceden eğitilmiş modelin potansiyelini tam olarak ortaya çıkarmak için talimat ayarlama yaklaşımında da yenilik yapıldı
Sonraki eğitim yaklaşımı; supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) ve direct policy optimization (DPO) kombinasyonundan oluşuyor
SFT'de kullanılan prompt'ların kalitesi ile PPO ve DPO'da kullanılan tercih sıralamaları, hizalanmış modelin performansı üzerinde aşırı büyük etki yaratıyor

Llama 3 ile geliştirme

Meta'nın vizyonu, geliştiricilerin Llama 3'ü özelleştirerek ilgili kullanım senaryolarını destekleyebilmesi, en iyi uygulamaları kolayca benimsemesi ve açık ekosistemi geliştirebilmesi
Bu sürümde, Llama Guard 2 ve Cybersec Eval 2 ile birlikte güncellenmiş bileşenler içeren yeni güven ve güvenlik araçları ile LLM tarafından üretilen güvensiz kodu filtrelemek için çıkarım zamanlı bir guardrail olan Code Shield tanıtıldı
Ayrıca Llama 3, LLM'leri kolayca yazmak, ince ayar yapmak ve denemek için yeni bir PyTorch tabanlı kütüphane olan torchtune ile birlikte geliştirildi

Sorumlu geliştirme ve dağıtım için sistem düzeyinde yaklaşım

Llama 3 modelleri, mümkün olduğunca faydalı olurken aynı zamanda sektör lideri düzeyde sorumlu dağıtım yaklaşımını güvence altına alacak şekilde tasarlandı
Bunun için Llama'nın sorumlu geliştirilmesi ve dağıtılması adına yeni bir sistem düzeyinde yaklaşım benimsendi
Llama modelleri, geliştiricilerin kendi özgün nihai hedeflerini göz önünde bulundurarak tasarladığı sistemlerin temel yapı taşı olarak ele alınıyor
Talimatla ince ayar, model güvenliğini sağlamada önemli rol oynuyor
Talimatla ince ayar yapılmış modeller, iç ve dış ekiplerin çalışmalarıyla güvenlik açısından red team testlerinden geçiriliyor
Bu çalışmalar yinelemeli biçimde sürdürülüyor ve yayımlanan modellerin güvenlik ince ayarlarında kullanılıyor
Llama Guard modeli, prompt ve yanıt güvenliğinin temelini oluşturuyor ve uygulama gereksinimlerine göre yeni sınıflandırmaların kolayca oluşturulmasına imkan veriyor
Yeni Llama Guard 2, sektör standardı desteği için kısa süre önce duyurulan MLCommons taksonomisini kullanıyor
CyberSecEval 2, LLM'lerin kod yorumlayıcısını kötüye kullanma eğilimi, saldırgan siber güvenlik yetenekleri ve prompt injection saldırılarına açıklık ölçümünü ekleyerek önceki sürümü genişletiyor
Code Shield, LLM tarafından üretilen güvensiz koda karşı çıkarım zamanında filtreleme sağlayarak güvensiz kod önerileri, kod yorumlayıcısının kötüye kullanımı ve güvenli komut yürütmeyle ilgili riskleri azaltıyor

Llama 3'ün geniş ölçekli dağıtımı

Llama 3, bulut sağlayıcıları ve model API sağlayıcıları dahil başlıca platformlarda yakında kullanıma sunulacak
Benchmark'lara göre tokenizer, Llama 2'ye kıyasla %15'e kadar daha az token üreterek token verimliliğini artırıyor
Ayrıca grouped-query attention (GQA), Llama 3 8B'ye de eklendi

Llama 3'ün gelecek planı

Llama 3 8B ve 70B modelleri, Llama 3 yayın planının yalnızca başlangıcı
Önümüzdeki aylarda multimodal, çok dilli diyalog yetenekleri, çok daha uzun context window ve genel olarak daha güçlü kabiliyetler sunan birden fazla model yayımlanacak
Llama 3 eğitimi tamamlandığında ayrıntılı bir araştırma makalesi de yayımlanacak

2 yorum

dormis 2024-04-19

Önce diğer bulutları bilmiyorum ama Azure AI Studio'ya Mixtral 8x22B ile birlikte Llma-3 (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct) zaten eklenmiş görünüyor.

xguru 2024-04-19

resmi site: https://llama.meta.com/llama3/
Andrej Karpathy'nin Meta Llama 3 değerlendirmesi