Meta'nın Llama 3 dil modeli ailesini yayımlaması
(llama.meta.com)- Meta'nın Llama sayfası, Llama model ailesini kolay dağıtım, maliyet verimliliği, performans ve büyük ölçekli genişleme hedefleyen açık kaynaklı yapay zeka olarak bir arada tanıtıyor; Llama 4 ve Llama 3 serilerini birlikte ele alıyor
- Llama 4 Maverick ve Llama 4 Scout, metin ve görsel token'ları birlikte önceden eğiten early fusion tabanlı, yerel çok modlu modeller; ikisi de 10M token bağlamı öne çıkarıyor
- Llama 3 serisi 3.1, 3.2 ve 3.3 olarak ayrılıyor; 8B, 70B, 405B, 1B, 3B, 11B, 90B ve 70B boyutlarında; metin, edge ve çok modlu kullanım alanlarına göre seçenekler sunuyor
- Performans karşılaştırmaları MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi ve MTOB gibi ölçütleri içeriyor; Llama 4 Maverick MMLU Pro 80.5, Scout ise 74.3 elde ediyor
- Stoque ve Shopify örneklerinde teknik destekte tekrarlayan soruların %50 azalması, iç memnuniyetin %11 artması, token işleme hacminin %76 yükselmesi ve JSON çıktı tabanlı hesaplama maliyetinde %33 düşüş gibi sonuçlar aktarılıyor
Llama model ailesi ve sürüme göre seçenekler
- Llama, kendi koşullarınıza göre inşa edebileceğiniz bir model ailesi olarak; kolay dağıtım, maliyet verimliliği, performans ve milyarlarca kullanıcı ölçeğinde genişleme hedefiyle sunuluyor
- En yeni Llama modellerinin ana eksenleri yerel çok modluluk, gelişmiş akıl yürütme ve uzun bağlam penceresi
- Model kartları ve prompt biçimleri Model overview sayfasında görülebilir
-
Llama 4: yerel çok modluluk ve 10M bağlam
- Llama 4, etiketlenmemiş metin ve görsel veriyi birlikte önceden eğiten early fusion tabanlı yerel çok modlu bir model ailesi
- Llama 4 Maverick, görsel ve metin anlama desteği sunuyor ve 10M token bağlamıyla uzun biçimli işleri işliyor
- Başlıca kullanım alanları bellek, kişiselleştirme ve çok modlu uygulamalar
- Llama 4 Scout, metin ve görsel zeka sunan bir model olarak; tek H100 GPU verimliliği ve 10M bağlam penceresini öne çıkarıyor
- Uzun belge analizi, Scout için temel kullanım alanı olarak gösteriliyor
- Ayrıntılar Llama 4 model dokümanında sunuluyor
-
Llama 3: boyut ve kullanım amacına göre model ailesi
- Llama 3, fine-tuning, damıtma ve her yerde dağıtıma uygun açık kaynaklı yapay zeka model ailesi
- Llama 3.3, 70B olarak sunulan çok dilli açık kaynaklı büyük dil modeli; 405B düzeyindeki performans ve kaliteyi daha düşük maliyetle deneyimleme vaadiyle tanıtılıyor
- Sentetik veri üretimi gibi metin tabanlı kullanım alanlarına odaklanıyor; ayrıntılar Llama 3.3 model dokümanında yer alıyor
- Llama 3.2, edge kullanımlarına uygun esnek ve maliyet verimli bir model ailesi
- 1B ve 3B hafif ve maliyet verimli olduğu için her yerde çalıştırılabiliyor
- 11B ve 90B, yüksek çözünürlüklü görüntüler üzerinde akıl yürütüp metin çıktısı verebilen çok modlu modeller
- Ayrıntılar Llama 3.2 model dokümanında sunuluyor
- Llama 3.1, esneklik ve kontrol için açık foundation model olarak; 8B, 70B ve 405B boyutlarında sunuluyor
- Genel bilgi, ayarlanabilirlik, matematik, araç kullanımı ve çok dilli çeviri yeteneklerini içeriyor; metin özetleme, çok dilli ajanlar ve kodlama için kullanılıyor
- Ayrıntılar Llama 3.1 model dokümanında sayfasında görülebilir
Performans metrikleri ve gerçek kullanım sonuçları
-
Llama 4 benchmark'ları ve değerlendirme koşulları
- Llama 4'ün yetenekleri yerel çok modluluk, uzun bağlam ve görsel grounding olarak özetleniyor
- Tüm Llama 4 modelleri, etiketlenmemiş metin ve görsel token'ları büyük ölçekte birlikte önceden eğitmek için early fusion kullanıyor
- Benchmark'lar Llama 4 Maverick ile Llama 4 Scout'u karşılaştırıyor
- Akıl yürütme: MMLU Pro'da Maverick 80.5, Scout 74.3; GPQA Diamond'da Maverick 69.8, Scout 57.2
- Kodlama: LiveCodeBench'te Maverick 43.4, Scout 32.8
- Çok modlu görüntü: MMMU'da Maverick 73.4, Scout 69.4; ChartQA'da Maverick 90.0, Scout 88.8; DocVQA'da ikisi de 94.4
- Çok dillilik: MMLU Multi'de Maverick 84.6, Scout 74.3
- Uzun bağlam: MTOB Half Book'ta Maverick 54.0 / 46.4, Scout 42.2 / 36.6; MTOB Full Book'ta Maverick 50.8 / 46.7, Scout 39.7 / 36.3
- Verimlilik: 1M token başına maliyet her ikisi için de $0.19–$0.49 olarak veriliyor
- Yöntem ve notlara göre Llama sonuçları, temperature 0 ile yapılan 0-shot değerlendirme; majority voting veya paralel test zamanı hesaplaması kullanılmıyor
- GPQA Diamond ve LiveCodeBench gibi varyansı yüksek benchmark'larda belirsizliği azaltmak için birden çok üretim sonucunun ortalaması alınıyor
- Uzun bağlam uzman değerlendirmeleri genel modellerde geleneksel olarak raporlanmadığı için şirket içi çalışma sonuçları paylaşılıyor
- Llama 4 Maverick'in $0.19/Mtok maliyeti, dağıtık çıkarım varsayımıyla 3:1 blended tahmine dayanıyor; tek host üzerinde ise $0.30–$0.49/Mtok aralığında sunulabileceği öngörülüyor
-
Stoque ve Shopify kullanım örnekleri
- Stoque, Llama ile iç istihbarat akışını dönüştürerek ekiplerin içgörülere daha hızlı ulaşmasını, sürtünmeyi azaltmasını ve büyük ölçekte daha verimli çalışmasını sağladı
- Teknik destekte tekrarlayan sorular %50 azaldı, yönetim ve destek görevlerinin tamamlanması %30 arttı
- İç kullanıcı memnuniyeti %11 yükseldi
- Shopify, Llama'yı ürün sayfası oluşturma, içerik yerelleştirme ve destek otomasyonu için kullanıyor
- Önceki modele göre token işleme hacmi %76 daha yüksek ve niyet tespitinde Macro-F1 doğruluğu 97.7
- JSON çıktısıyla hesaplama maliyeti %33 azaltılıyor
- Üretken yapay zeka güvenlik önlemleri, sistem düzeyindeki korumalarla potansiyel riskleri önceden belirleyip azaltıyor ve geliştiricilerin üretken yapay zekayı daha sorumlu biçimde dağıtmasına yardımcı oluyor
1 yorum
Hacker News yorumları
Başvurulabilecek bağlantılar: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613
Meta konsolu da yayımlamış: https://www.meta.ai/
Meta ürün ailesi genelinde Meta AI entegrasyonunu da duyurdu: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
Ancak GPT-4-Turbo veya Claude Opus ile karşılaştırma koymamış olmalarına bakılırsa, en uç modellerden biraz uzak gibi görünüyor; LLM Arena’da performansının nasıl çıkacağını görmek gerek
Büyük farkın yalnızca çok zor akıl yürütme benchmark’larında ortaya çıkması muhtemel. Llama açık ağırlıklı olduğu için Opus’un aksine çok sayıda fine-tuning ve LoRA çıkacaktır
Ülkeler ve büyük şirketler kendi modellerini eğitmek için GPU’lara para dökmek yerine Llama-3/Llama-4 kullanırsa GPU büyüme beklentileri baskılanabilir; OpenAI’ın 100 milyar dolar toplama gerekçesi zayıflar, Google’ın yapay zeka üstünlüğü de bulanıklaşır. AMD ve Intel, Nvidia’nın eğitim amaçlı GPU’larını yakalamaya çalışmak yerine AI inference çiplerine odaklanabilir
400B’nin üzerindeki en büyük modeller hâlâ eğitimde; önümüzdeki birkaç ay içinde multimodal, çok dilli konuşma, çok daha uzun context window ve genel olarak daha güçlü yeteneklere sahip birkaç model yayımlayacaklarını söylüyorlar
Açık benchmark’lar kaba gösterge olarak iyi, ama geliştiriciler kendi kullanım senaryolarına uygun özel benchmark çalıştırmalı
Replicate hızlıca Llama 3 API’si hazırladı: https://replicate.com/blog/run-llama-3-with-an-api; promptfoo https://github.com/typpo/promptfoo ile Llama 3, Mixtral, GPT, Claude vb. karşılaştırılabilir. Örneğin Replicate’in
meta/meta-llama-3-8b-instruct,meta/meta-llama-3-70b-instruct, OpenAIgpt-4-turbo, Anthropicclaude-3-opus-20240229modelleri aynı prompt’larla değerlendirilebilirHâlâ test ediyorum ama rastgele programlama soruları kümesinde Llama 3 8B oldukça iyi görünüyor. ollama da artık Llama 3 8B’yi desteklediği için
ollama:chat:llama3ile yerel değerlendirme yapmak kolaylaştıİyi bir test, rastgele a, b, c için ikinci dereceden denklem çözmek gibi basit ama gerçek uygulamayı görmeyi gerektiren bir problemdir. Tüm modellerin biliyor olması gereken bir algoritma olmasına rağmen hata yapıyorlar; ardından da doğrulamış gibi yapıp yanlış cevabı tekrarlayabiliyorlar. LLAMA 3 de birkaç kez hataları işaret edildikten sonra “doğru çözümü bulduğunu ve birkaç yöntemle doğruladığını” söyledi, ama gerçek çözüm baştaki gibi yanlıştı ve doğrulama girişimi de yoktu
assistanteklenmesi durumu vardı, ama artık çalışması gerekiyorollama run llama3ile çalıştırılabilir; çeşitli quantization sürümleri ve metin/70B modelleri de yükleniyorLlama 3 70B, ünlü LMSYS chatbot arena sıralamasına 5. sıradan giriş yaptı; Claude 2 Sonnet, Bard(Gemini Pro), Command R+ ile aynı puanda ve Claude 2 Haiku ile önceki GPT-4 sürümlerinin önünde
Puan belirsizliği hâlâ yüksek olduğu için kesin sıralama zamanla netleşecek ve değişebilir. Llama 3 8B, 12. sırada Claude 1, Mixtral 8x22B, Qwen-1.5-72B ile aynı puanda. Güncel sıralama https://arena.lmsys.org/ adresinden görülebilir
Yalnızca İngilizce sıralamasında Llama 3 70B’nin GPT-4 ve Claude Opus ile birlikte en üst grupta kalması daha da etkileyici. Safety tuning’in öncekine göre daha az güçlü olup prompt reddetmelerini azaltmış olmasının etkisi olabilir, ama yine de pratikte faydalı bir iyileşme. Bu hızla giderse 400B modeli fiilen baskın olabilir
Çince rap üretmesini denedim; oldukça iyi yaptı, ama tamamlandıktan hemen sonra yanıt silinip “henüz Çince anlamıyorum ama bunun üzerinde çalışıyorum; Çince sohbet edebilecek hale geldiğimde mesaj göndereceğim” ifadesiyle değiştirildi
Diğer dillerde de benzer şekilde İngilizce dışı üretim yapılıyor, ama bitince yanıt silinip aynı bilgilendirme metniyle değiştiriliyor
Blogda çok sayıda iyi ayrıntı var: https://ai.meta.com/blog/meta-llama-3/
400B sürümü de çıkacak ve GPT-4 ile Claude Opus’tan çok daha iyi olacak gibi görünüyor. Merkeziyetsizlik ve açık yazılımın kazandığı bir gidişat var
Elbette benchmark yapılan şey ara bir checkpoint ve eğitim hâlâ devam ediyor
Benchmark’lara körü körüne inanmak gerekmez ama GPT-4’ü veya Opus’u geçtiğine dair bir iddia yok. Ara checkpoint olduğu için ileride geçme ihtimali var
Ayrıca açık kaynak da değil
Zuck, Yann ve Meta ekibinin açık yaklaşımı seçerek model ağırlıklarını, tokenizer’ı, eğitim verisi bilgilerini vb. paylaşmasına gerçekten minnettarım
llama.cpp gibi projeler sayesinde tüketici donanımlarında oldukça iyi modelleri yerelde çalıştırabilmeyi, sansürden veya kontrolden kaçınabilmeyi sağlayan açık araştırma patlamasının en büyük itici gücü onlar
OpenAI veya Anthropic’in kontrollerine takılacak istekler yapmaya çalıştığımdan değil; ama bu kadar güçlü bir teknolojinin duvarların arkasında olması ve gatekeeper’ların kullanım biçimini kontrol etmesi hoşuma gitmiyor. Açıklığa inanan birçok kişi ve şirket var, fakat yüz milyarlarca dolarlık sermayeye, sürdürülebilir nakit akışına ve milyarlarca dolarlık GPU’ya sahip bir yer bunu yaptığında etkisi çok daha büyük oluyor. Zuck bu yolu seçmek zorunda değildi; Facebook’u HBS/McKinsey tarzı profesyonel bir yönetici işletiyor olsaydı büyük olasılıkla böyle açık bırakmazdı. Yapay zeka güvenliği riski bahanesiyle taç mücevherlerini merkezi bir API’nin arkasına saklamadığı için herkes büyük kazanç sağladı
Joel Spolsky’nin eskiden bahsettiği strateji bu; Meta’nın tam olarak hangi yapay zeka modeli tamamlayıcılarını satabileceği ise net değil. Yine de bir şekilde stratejik bir tercih olduğu kesin görünüyor
Zuck hakkında eleştirilecek çok şey var, ama misyona dair samimiyet eksikliği bunlardan biri değil
Meta’nın burada o meşaleyi devraldığını görmek sevindirici; umarım devam eder
Ücretli ChatGPT Plus’ın GPT-4’üyle doğrudan karşılaştırma olmadığı için rakamları eşleştirdim
Llama 3 8B / Llama 3 70B / GPT-4 için MMLU 68.4 / 82.0 / 86.5, GPQA 34.2 / 39.5 / 49.1, MATH 30.0 / 50.4 / 72.2, HumanEval 62.2 / 81.7 / 87.6, DROP 58.4 / 79.7 / 85.4
Çoğu kişinin kullandığı ücretsiz ChatGPT, GPT-4’ten çok daha zayıf olan GPT-3.5 tabanlı. En güncel GPT-3.5 için kapsamlı değerlendirme rakamlarını bulamadım, ama Llama 3 70B rahatça onu geçer; 8B de yakın olur gibi. Bu düzeyde bir modeli yerelde çalıştırıp değiştirebilmek çok heyecan verici. GPT-4 rakamları https://github.com/openai/simple-evals içindeki
gpt-4-turbo-2024-04-09 (chatgpt)temel alınarak verilmişLlama 3 400B Base / Instruct için MMLU 84.8 / 86.1, GPQA - / 48.0, MATH - / 57.8, HumanEval - / 84.1, DROP 83.5 / -
IDE içinde kodlama için denemek isteyen varsa, kodlama yardımcı aracı https://www.double.bot içine Llama 3 70B’yi ekledim
Zuck röportajı da yayımlandı: https://twitter.com/dwarkesh_sp/status/1780990840179187715
O dönemde ihtiyaçlarının 2 katını güvenceye almış; bu sayede tesadüfen bu ölçekte bir LLM’i eğitecek GPU kapasitesine sahip az sayıdaki şirketten biri olmuş
Model kartında Llama 2 dâhil diğer Llama modellerine kıyasla benchmark sonuçları var: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
Llama 2’ye kıyasla Llama 3’ün performans artışı dramatik olduğu için etkileyici. Llama 2 13B ile karşılaştırıldığında da böyle; bağlam penceresinin 8k’ya çıkarak iki katına çıkması da birçok yeni fırsatın önünü açacaktır
Yine de açıklanan performans metrikleri etkileyici ve Meta’nın bu modelleri yayımlaması takdire değer