Meta'nın Llama 3 dil modeli ailesini yayımlaması

(llama.meta.com)

1 puan yazan GN⁺ 2024-04-19 | 1 yorum | WhatsApp'ta paylaş

Meta'nın Llama sayfası, Llama model ailesini kolay dağıtım, maliyet verimliliği, performans ve büyük ölçekli genişleme hedefleyen açık kaynaklı yapay zeka olarak bir arada tanıtıyor; Llama 4 ve Llama 3 serilerini birlikte ele alıyor
Llama 4 Maverick ve Llama 4 Scout, metin ve görsel token'ları birlikte önceden eğiten early fusion tabanlı, yerel çok modlu modeller; ikisi de 10M token bağlamı öne çıkarıyor
Llama 3 serisi 3.1, 3.2 ve 3.3 olarak ayrılıyor; 8B, 70B, 405B, 1B, 3B, 11B, 90B ve 70B boyutlarında; metin, edge ve çok modlu kullanım alanlarına göre seçenekler sunuyor
Performans karşılaştırmaları MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi ve MTOB gibi ölçütleri içeriyor; Llama 4 Maverick MMLU Pro 80.5, Scout ise 74.3 elde ediyor
Stoque ve Shopify örneklerinde teknik destekte tekrarlayan soruların %50 azalması, iç memnuniyetin %11 artması, token işleme hacminin %76 yükselmesi ve JSON çıktı tabanlı hesaplama maliyetinde %33 düşüş gibi sonuçlar aktarılıyor

Llama model ailesi ve sürüme göre seçenekler

Llama, kendi koşullarınıza göre inşa edebileceğiniz bir model ailesi olarak; kolay dağıtım, maliyet verimliliği, performans ve milyarlarca kullanıcı ölçeğinde genişleme hedefiyle sunuluyor
En yeni Llama modellerinin ana eksenleri yerel çok modluluk, gelişmiş akıl yürütme ve uzun bağlam penceresi
Model kartları ve prompt biçimleri Model overview sayfasında görülebilir
Llama 4: yerel çok modluluk ve 10M bağlam
- Llama 4, etiketlenmemiş metin ve görsel veriyi birlikte önceden eğiten early fusion tabanlı yerel çok modlu bir model ailesi
- Llama 4 Maverick, görsel ve metin anlama desteği sunuyor ve 10M token bağlamıyla uzun biçimli işleri işliyor
- Başlıca kullanım alanları bellek, kişiselleştirme ve çok modlu uygulamalar
- Llama 4 Scout, metin ve görsel zeka sunan bir model olarak; tek H100 GPU verimliliği ve 10M bağlam penceresini öne çıkarıyor
- Uzun belge analizi, Scout için temel kullanım alanı olarak gösteriliyor
- Ayrıntılar Llama 4 model dokümanında sunuluyor
Llama 3: boyut ve kullanım amacına göre model ailesi
- Llama 3, fine-tuning, damıtma ve her yerde dağıtıma uygun açık kaynaklı yapay zeka model ailesi
- Llama 3.3, 70B olarak sunulan çok dilli açık kaynaklı büyük dil modeli; 405B düzeyindeki performans ve kaliteyi daha düşük maliyetle deneyimleme vaadiyle tanıtılıyor
- Sentetik veri üretimi gibi metin tabanlı kullanım alanlarına odaklanıyor; ayrıntılar Llama 3.3 model dokümanında yer alıyor
- Llama 3.2, edge kullanımlarına uygun esnek ve maliyet verimli bir model ailesi
  - 1B ve 3B hafif ve maliyet verimli olduğu için her yerde çalıştırılabiliyor
  - 11B ve 90B, yüksek çözünürlüklü görüntüler üzerinde akıl yürütüp metin çıktısı verebilen çok modlu modeller
  - Ayrıntılar Llama 3.2 model dokümanında sunuluyor
- Llama 3.1, esneklik ve kontrol için açık foundation model olarak; 8B, 70B ve 405B boyutlarında sunuluyor
- Genel bilgi, ayarlanabilirlik, matematik, araç kullanımı ve çok dilli çeviri yeteneklerini içeriyor; metin özetleme, çok dilli ajanlar ve kodlama için kullanılıyor
- Ayrıntılar Llama 3.1 model dokümanında sayfasında görülebilir

Performans metrikleri ve gerçek kullanım sonuçları

Llama 4 benchmark'ları ve değerlendirme koşulları
- Llama 4'ün yetenekleri yerel çok modluluk, uzun bağlam ve görsel grounding olarak özetleniyor
- Tüm Llama 4 modelleri, etiketlenmemiş metin ve görsel token'ları büyük ölçekte birlikte önceden eğitmek için early fusion kullanıyor
- Benchmark'lar Llama 4 Maverick ile Llama 4 Scout'u karşılaştırıyor
  - Akıl yürütme: MMLU Pro'da Maverick 80.5, Scout 74.3; GPQA Diamond'da Maverick 69.8, Scout 57.2
  - Kodlama: LiveCodeBench'te Maverick 43.4, Scout 32.8
  - Çok modlu görüntü: MMMU'da Maverick 73.4, Scout 69.4; ChartQA'da Maverick 90.0, Scout 88.8; DocVQA'da ikisi de 94.4
  - Çok dillilik: MMLU Multi'de Maverick 84.6, Scout 74.3
  - Uzun bağlam: MTOB Half Book'ta Maverick 54.0 / 46.4, Scout 42.2 / 36.6; MTOB Full Book'ta Maverick 50.8 / 46.7, Scout 39.7 / 36.3
  - Verimlilik: 1M token başına maliyet her ikisi için de $0.19–$0.49 olarak veriliyor
- Yöntem ve notlara göre Llama sonuçları, temperature 0 ile yapılan 0-shot değerlendirme; majority voting veya paralel test zamanı hesaplaması kullanılmıyor
- GPQA Diamond ve LiveCodeBench gibi varyansı yüksek benchmark'larda belirsizliği azaltmak için birden çok üretim sonucunun ortalaması alınıyor
- Uzun bağlam uzman değerlendirmeleri genel modellerde geleneksel olarak raporlanmadığı için şirket içi çalışma sonuçları paylaşılıyor
- Llama 4 Maverick'in $0.19/Mtok maliyeti, dağıtık çıkarım varsayımıyla 3:1 blended tahmine dayanıyor; tek host üzerinde ise $0.30–$0.49/Mtok aralığında sunulabileceği öngörülüyor
Stoque ve Shopify kullanım örnekleri
- Stoque, Llama ile iç istihbarat akışını dönüştürerek ekiplerin içgörülere daha hızlı ulaşmasını, sürtünmeyi azaltmasını ve büyük ölçekte daha verimli çalışmasını sağladı
- Teknik destekte tekrarlayan sorular %50 azaldı, yönetim ve destek görevlerinin tamamlanması %30 arttı
- İç kullanıcı memnuniyeti %11 yükseldi
- Shopify, Llama'yı ürün sayfası oluşturma, içerik yerelleştirme ve destek otomasyonu için kullanıyor
- Önceki modele göre token işleme hacmi %76 daha yüksek ve niyet tespitinde Macro-F1 doğruluğu 97.7
- JSON çıktısıyla hesaplama maliyeti %33 azaltılıyor
- Üretken yapay zeka güvenlik önlemleri, sistem düzeyindeki korumalarla potansiyel riskleri önceden belirleyip azaltıyor ve geliştiricilerin üretken yapay zekayı daha sorumlu biçimde dağıtmasına yardımcı oluyor

1 yorum

GN⁺ 2024-04-19

Hacker News yorumları

Başvurulabilecek bağlantılar: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613
Meta konsolu da yayımlamış: https://www.meta.ai/
Meta ürün ailesi genelinde Meta AI entegrasyonunu da duyurdu: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
Ancak GPT-4-Turbo veya Claude Opus ile karşılaştırma koymamış olmalarına bakılırsa, en uç modellerden biraz uzak gibi görünüyor; LLM Arena’da performansının nasıl çıkacağını görmek gerek
- En iyi modellerle karşılaştırmamalarının nedeni muhtemelen “aynı sınıf” karşılaştırması yapmak istemeleri. 70B modeli Sonnet ile aynı ligde ve Sonnet’i yeniyorsa çoğu işte Opus veya GPT-4’e de yaklaşabilir
  Büyük farkın yalnızca çok zor akıl yürütme benchmark’larında ortaya çıkması muhtemel. Llama açık ağırlıklı olduğu için Opus’un aksine çok sayıda fine-tuning ve LoRA çıkacaktır
- Llama-3-400B Claude 3 Opus vb. ile boy ölçüşürse kaybedenler Nvidia hissesi, OpenAI ve Sam, Google; kazananlar ise AMD, Intel, üniversiteler ve dünyanın dört bir yanındaki geliştiriciler olabilir
  Ülkeler ve büyük şirketler kendi modellerini eğitmek için GPU’lara para dökmek yerine Llama-3/Llama-4 kullanırsa GPU büyüme beklentileri baskılanabilir; OpenAI’ın 100 milyar dolar toplama gerekçesi zayıflar, Google’ın yapay zeka üstünlüğü de bulanıklaşır. AMD ve Intel, Nvidia’nın eğitim amaçlı GPU’larını yakalamaya çalışmak yerine AI inference çiplerine odaklanabilir
- Giriş yapmadan kullanılabilir bırakmaları da şaşırtıcı. Meta’dan beklemediğim bir şey
- Meta, daha rekabetçi büyük varyant modelini hâlâ eğittiğini açıkladı
  400B’nin üzerindeki en büyük modeller hâlâ eğitimde; önümüzdeki birkaç ay içinde multimodal, çok dilli konuşma, çok daha uzun context window ve genel olarak daha güçlü yeteneklere sahip birkaç model yayımlayacaklarını söylüyorlar
- “Meta AI isn't available yet in your country” çıkıyor; nerelerde kullanılabildiğini merak ediyorum. Norveç’te böyle görünüyor
Açık benchmark’lar kaba gösterge olarak iyi, ama geliştiriciler kendi kullanım senaryolarına uygun özel benchmark çalıştırmalı
Replicate hızlıca Llama 3 API’si hazırladı: https://replicate.com/blog/run-llama-3-with-an-api; promptfoo https://github.com/typpo/promptfoo ile Llama 3, Mixtral, GPT, Claude vb. karşılaştırılabilir. Örneğin Replicate’in meta/meta-llama-3-8b-instruct, meta/meta-llama-3-70b-instruct, OpenAI gpt-4-turbo, Anthropic claude-3-opus-20240229 modelleri aynı prompt’larla değerlendirilebilir
Hâlâ test ediyorum ama rastgele programlama soruları kümesinde Llama 3 8B oldukça iyi görünüyor. ollama da artık Llama 3 8B’yi desteklediği için ollama:chat:llama3 ile yerel değerlendirme yapmak kolaylaştı
- İnternette zaten bütünüyle bulunma ihtimali yüksek problemlerle test yaparken çok dikkatli olmak gerek
  İyi bir test, rastgele a, b, c için ikinci dereceden denklem çözmek gibi basit ama gerçek uygulamayı görmeyi gerektiren bir problemdir. Tüm modellerin biliyor olması gereken bir algoritma olmasına rağmen hata yapıyorlar; ardından da doğrulamış gibi yapıp yanlış cevabı tekrarlayabiliyorlar. LLAMA 3 de birkaç kez hataları işaret edildikten sonra “doğru çözümü bulduğunu ve birkaç yöntemle doğruladığını” söyledi, ama gerçek çözüm baştaki gibi yanlıştı ve doğrulama girişimi de yoktu
- Sözlük tarafındaki bir sorun nedeniyle yanıtın sonunda assistant eklenmesi durumu vardı, ama artık çalışması gerekiyor
  ollama run llama3 ile çalıştırılabilir; çeşitli quantization sürümleri ve metin/70B modelleri de yükleniyor
Llama 3 70B, ünlü LMSYS chatbot arena sıralamasına 5. sıradan giriş yaptı; Claude 2 Sonnet, Bard(Gemini Pro), Command R+ ile aynı puanda ve Claude 2 Haiku ile önceki GPT-4 sürümlerinin önünde
Puan belirsizliği hâlâ yüksek olduğu için kesin sıralama zamanla netleşecek ve değişebilir. Llama 3 8B, 12. sırada Claude 1, Mixtral 8x22B, Qwen-1.5-72B ile aynı puanda. Güncel sıralama https://arena.lmsys.org/ adresinden görülebilir
Yalnızca İngilizce sıralamasında Llama 3 70B’nin GPT-4 ve Claude Opus ile birlikte en üst grupta kalması daha da etkileyici. Safety tuning’in öncekine göre daha az güçlü olup prompt reddetmelerini azaltmış olmasının etkisi olabilir, ama yine de pratikte faydalı bir iyileşme. Bu hızla giderse 400B modeli fiilen baskın olabilir
Çince rap üretmesini denedim; oldukça iyi yaptı, ama tamamlandıktan hemen sonra yanıt silinip “henüz Çince anlamıyorum ama bunun üzerinde çalışıyorum; Çince sohbet edebilecek hale geldiğimde mesaj göndereceğim” ifadesiyle değiştirildi
Diğer dillerde de benzer şekilde İngilizce dışı üretim yapılıyor, ama bitince yanıt silinip aynı bilgilendirme metniyle değiştiriliyor
- Belirli sayıda token üretildikten sonra yanıt kalitesini değerlendiren bir post-processor var ve ölçütün altındaysa yanıtı geri alıyor gibi görünüyor
- Yerelde çalıştırmak yeterli. Yerel sürümde böyle bir koruma yok
- İtalyanca çalışıyor, ama her zaman “İngilizce dışı yeteneklerimi hâlâ geliştiriyorum; hatalar olabilir ve İngilizce yardımcı olduğumda en faydalıyım” şeklinde bir sorumluluk reddi ekleniyor
- Bu bug’ın 12 saat sonra hâlâ devam etmesi garip
Blogda çok sayıda iyi ayrıntı var: https://ai.meta.com/blog/meta-llama-3/
400B sürümü de çıkacak ve GPT-4 ile Claude Opus’tan çok daha iyi olacak gibi görünüyor. Merkeziyetsizlik ve açık yazılımın kazandığı bir gidişat var
- Anthropic’in Claude 3 rakamlarıyla https://www.anthropic.com/news/claude-3-family karşılaştırınca Llama 400B rakamları biraz düşük görünüyor
  Elbette benchmark yapılan şey ara bir checkpoint ve eğitim hâlâ devam ediyor
- Öyle bir şey hiç söylenmedi. Aksine yayımlanan benchmark’lar GPT-4 veya Opus’tan daha düşük çıkıyor
  Benchmark’lara körü körüne inanmak gerekmez ama GPT-4’ü veya Opus’u geçtiğine dair bir iddia yok. Ara checkpoint olduğu için ileride geçme ihtimali var
- 400B modelinin GPT-4’ten çok daha iyi olduğuna dair kısmın nerede olduğunu bilmiyorum
- Buna merkeziyetsiz demek zor. Birçok yerde çalıştırılabilir ama dağıtım noktası yalnızca bir tane
  Ayrıca açık kaynak da değil
- Açık kaynak da değil, merkeziyetsiz de değil
Zuck, Yann ve Meta ekibinin açık yaklaşımı seçerek model ağırlıklarını, tokenizer’ı, eğitim verisi bilgilerini vb. paylaşmasına gerçekten minnettarım
llama.cpp gibi projeler sayesinde tüketici donanımlarında oldukça iyi modelleri yerelde çalıştırabilmeyi, sansürden veya kontrolden kaçınabilmeyi sağlayan açık araştırma patlamasının en büyük itici gücü onlar
OpenAI veya Anthropic’in kontrollerine takılacak istekler yapmaya çalıştığımdan değil; ama bu kadar güçlü bir teknolojinin duvarların arkasında olması ve gatekeeper’ların kullanım biçimini kontrol etmesi hoşuma gitmiyor. Açıklığa inanan birçok kişi ve şirket var, fakat yüz milyarlarca dolarlık sermayeye, sürdürülebilir nakit akışına ve milyarlarca dolarlık GPU’ya sahip bir yer bunu yaptığında etkisi çok daha büyük oluyor. Zuck bu yolu seçmek zorunda değildi; Facebook’u HBS/McKinsey tarzı profesyonel bir yönetici işletiyor olsaydı büyük olasılıkla böyle açık bırakmazdı. Yapay zeka güvenliği riski bahanesiyle taç mücevherlerini merkezi bir API’nin arkasına saklamadığı için herkes büyük kazanç sağladı
- Zuck’ın röportajlarına bakınca içten içe hâlâ bir mühendis olduğunu görebiliyorsunuz. Diğer büyük teknoloji şirketleri böyle bir liderliği kaybetti
- Henüz 39 yaşında olması ve şirketi yönetmek için daha da fazla enerjiye sahip görünmesi iyi bir şey. Tutkulu bir kurucunun varlığı, diğer büyük teknoloji şirketlerine kıyasla Meta’nın büyük bir avantajı bence
- Bunu yalnızca iyi niyetle yapıyor olma ihtimali düşük. Modeli emtia haline getirip tamamlayıcı ürünler satma stratejisi olması daha olası
  Joel Spolsky’nin eskiden bahsettiği strateji bu; Meta’nın tam olarak hangi yapay zeka modeli tamamlayıcılarını satabileceği ise net değil. Yine de bir şekilde stratejik bir tercih olduğu kesin görünüyor
- Bunun nedeni kurucu CEO olması. Kariyer odaklı MBA’lerden tutku ve samimiyet açısından farklı
  Zuck hakkında eleştirilecek çok şey var, ama misyona dair samimiyet eksikliği bunlardan biri değil
- Meta, Open Compute Project’e de öncülük etmişti. Google’a açık kaynağa bağlılığı nedeniyle katılmıştım, ancak eksa ölçekli çözümler geliştirirken bu kültürün devam etmemesi beni büyük hayal kırıklığına uğrattı
  Meta’nın burada o meşaleyi devraldığını görmek sevindirici; umarım devam eder
Ücretli ChatGPT Plus’ın GPT-4’üyle doğrudan karşılaştırma olmadığı için rakamları eşleştirdim
Llama 3 8B / Llama 3 70B / GPT-4 için MMLU 68.4 / 82.0 / 86.5, GPQA 34.2 / 39.5 / 49.1, MATH 30.0 / 50.4 / 72.2, HumanEval 62.2 / 81.7 / 87.6, DROP 58.4 / 79.7 / 85.4
Çoğu kişinin kullandığı ücretsiz ChatGPT, GPT-4’ten çok daha zayıf olan GPT-3.5 tabanlı. En güncel GPT-3.5 için kapsamlı değerlendirme rakamlarını bulamadım, ama Llama 3 70B rahatça onu geçer; 8B de yakın olur gibi. Bu düzeyde bir modeli yerelde çalıştırıp değiştirebilmek çok heyecan verici. GPT-4 rakamları https://github.com/openai/simple-evals içindeki gpt-4-turbo-2024-04-09 (chatgpt) temel alınarak verilmiş
- https://ai.meta.com/blog/meta-llama-3/ sayfasının alt kısmında devam eden 400B modeli sonuçları da var. Görünüşe göre henüz tam olarak hedefe ulaşmamış
  Llama 3 400B Base / Instruct için MMLU 84.8 / 86.1, GPQA - / 48.0, MATH - / 57.8, HumanEval - / 84.1, DROP 83.5 / -
- GPT-4’ün 1.8T parametreli olduğu düşünülünce şaşırtıcı
- İnce ayarlanmış veya birleştirilmiş modelleri bekliyorum. Birçok geliştirici Llama 2 tabanlı, temel modelden çok daha iyi modeller üretmişti; yeni sürümde de benzer bir akış bekliyorum
- Mixtral 8x22B ile karşılaştıran bir materyal olup olmadığını merak ediyorum. Dünya gerçekten çok hızlı hareket ediyor
- HumanEval puanı yüksek olduğu için özellikle heyecan verici. 400B modeli de CodeLlama ayarı da henüz çıkmadı
  IDE içinde kodlama için denemek isteyen varsa, kodlama yardımcı aracı https://www.double.bot içine Llama 3 70B’yi ekledim
Zuck röportajı da yayımlandı: https://twitter.com/dwarkesh_sp/status/1780990840179187715
- 1. dakika civarında ilginç bir bölüm var; Zuck birkaç yıl önce TikTok’la rekabet edecek Reels öneri motorunu yapmak için H100 GPU’lardan çok büyük miktarda aldığını söylüyor
    O dönemde ihtiyaçlarının 2 katını güvenceye almış; bu sayede tesadüfen bu ölçekte bir LLM’i eğitecek GPU kapasitesine sahip az sayıdaki şirketten biri olmuş
- 1-2 yıllık MMA, karizmasına o zamana kadarki medya eğitiminden çok daha fazla katkı sağlamış gibi. Son röportajlarda çok daha doğal
- Dwarkesh’in podcast’i genel olarak gerçekten iyi
Model kartında Llama 2 dâhil diğer Llama modellerine kıyasla benchmark sonuçları var: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
Llama 2’ye kıyasla Llama 3’ün performans artışı dramatik olduğu için etkileyici. Llama 2 13B ile karşılaştırıldığında da böyle; bağlam penceresinin 8k’ya çıkarak iki katına çıkması da birçok yeni fırsatın önünü açacaktır
- Talimat ayarlı model ölçütüne göre Llama 3 8B, Llama 2 70B’den bile oldukça iyi
- 8k bağlam uzunluğunun Mixtral 8x22B’nin 64k bağlamından çok daha kısa olması üzücü
  Yine de açıklanan performans metrikleri etkileyici ve Meta’nın bu modelleri yayımlaması takdire değer

Meta'nın Llama 3 dil modeli ailesini yayımlaması

Llama model ailesi ve sürüme göre seçenekler

Llama 4: yerel çok modluluk ve 10M bağlam

Llama 3: boyut ve kullanım amacına göre model ailesi

Performans metrikleri ve gerçek kullanım sonuçları

Llama 4 benchmark'ları ve değerlendirme koşulları

Stoque ve Shopify kullanım örnekleri

İlgili okumalar

1 yorum

Hacker News yorumları