Meta, Llama 4'ü piyasaya sürdü

(ai.meta.com)

16 puan yazan GN⁺ 2025-04-06 | 2 yorum | WhatsApp'ta paylaş

Scout, Maverick, Behemoth olmak üzere 3 modelden oluşan ilk açık ağırlık tabanlı yerel multimodal model
- Tüm modeller görüntü + metin anlayan multimodal yapıda

Llama 4 Scout

17B etkin parametre + 16 Expert
10M token destekleyen ultra uzun bağlam işleme yeteneği
Tek bir GPU'da (H100) çalışabilen verimli ve hafif model
Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1'i aşan performans
Görsel hizalama, çoklu belge özetleme, büyük kod tabanı analizi gibi alanlarda üstün performans

Llama 4 Maverick

17B etkin parametre + 128 Expert + 400B toplam parametre
GPT-4o ve Gemini 2.0 Flash'tan daha iyi performans
Reasoning, kodlama, görüntü anlama gibi tüm alanlarda üstün
1417 ELO puanı (LMArena ölçütüne göre)
Yüksek performansa karşılık verimli maliyet yapısı

Llama 4 Behemoth (önizleme)

288B etkin parametre + 16 Expert + yaklaşık 2T toplam parametre
Hâlâ eğitiliyor, ancak GPT-4.5, Claude 3.7, Gemini 2.0 Pro'yu aşan performans
Maverick modelinin ön eğitiminde öğretmen model olarak kullanılıyor

Scout ve Maverick bugünden itibaren llama.com ve Hugging Face üzerinden indirilebilir

# Teknik özellikler

Mixture of Experts (MoE) mimarisi

Tüm parametreleri kullanmak yerine, yalnızca bazı uzmanları etkinleştirerek hesaplama verimliliğini en üst düzeye çıkarır
Hızlı çıkarım, düşük maliyet, yüksek kalite sunan bir eğitim yapısı

Yerel multimodal ve Early Fusion

Metin ve görsel veriyi başlangıçtan itibaren entegre ederek ortak eğitim
En fazla 48 görsel girişi mümkün, testler en fazla 8 görselle başarıyla yapıldı

Ultra uzun bağlam işleme (10M Tokens)

Scout modeli, iRoPE (interleaved Rotary Position Embedding) yapısıyla 'sonsuz bağlam' olasılığını araştırıyor
Metin ve kod için uzunluk genelleme performansı çok güçlü

MetaP & FP8 eğitim teknikleri

Yüksek hızlı / yüksek verimli eğitim için yeni hiperparametre ayarlama tekniği
FP8 hassasiyetiyle yüksek FLOPs kullanım oranı sağlandı (Behemoth: 390 TFLOPs/GPU)

# Son işleme ve RL eğitim stratejisi

SFT → online RL → DPO şeklinde üç aşamalı son işleme hattı
Kolay veriler çıkarıldı, eğitim orta ila yüksek zorluktaki prompt'lara odaklandı
Sürekli online RL stratejisi benimsendi: performans artışı ve eğitim verimliliği en üst düzeye çıkarıldı

# Güvenlik ve etik değerlendirmeleri

Çok katmanlı koruma stratejisi

Eğitim öncesi / sonrası aşamalarda veri filtreleme ve sansürleme
Llama Guard: girdi/çıktı güvenlik denetimi
Prompt Guard: jailbreak ve injection attack tespiti
CyberSecEval: üretken yapay zekanın güvenlik risklerini değerlendirme aracı

Nicel risk tespitinin otomasyonu

GOAT (Generative Offensive Agent Testing) kullanıma alındı
- Orta seviye saldırgan senaryolarının simülasyonu
- Otomatik çok turlu testlerle risklerin erken tespiti

Önyargıyı azaltma çalışmaları

Llama 4'te Llama 3'e kıyasla önyargı önemli ölçüde iyileştirildi
- Yanıt reddetme oranı %7 → %2'nin altı
- Yanıt dengesizliği < %1
- Grok seviyesinde politik dengeye sahip yanıtlar korunuyor

# Llama 4 model kullanım rehberi

Scout ve Maverick'in ikisi de indirilebilir ve kullanılabilir
- llama.com
- Hugging Face
Meta AI hizmetine Llama 4 entegrasyonu:
- WhatsApp, Messenger, Instagram DM, meta.ai

# Gelecek takvim

Daha fazla teknik ayrıntı ve vizyonun paylaşılacağı LlamaCon 2025, 29 Nisan'da düzenlenecek
- LlamaCon'a kayıt olun

2 yorum

jjw951215 2025-04-07

RAM’i bol olan Apple Silicon veya NPU sınıfı sistemlere daha uygun görünüyor. Tamamen GPU sunucularında kullanmak içinse en düşük gereksinimli modelin bile int4 quantization’da H100 gerektirmesi biraz...

GN⁺ 2025-04-06

Hacker News görüşleri

Llama 4 modeline genel bakış:
- Llama 4 Scout ve Llama 4 Maverick, sırasıyla 17B etkin parametre kullanan Mixture-of-Experts (MoE) tasarımını kullanıyor
- Metin ve görsel girdilerini destekleyen multimodal özelliklere sahip
- Başlıca başarıları arasında sektör lideri bağlam uzunluğu, güçlü kodlama/akıl yürütme performansı ve geliştirilmiş çok dilli destek yer alıyor
- Bilgi kesim tarihi Ağustos 2024
Llama 4 Scout:
- 17B etkin parametre, 16 uzman, toplam 109B
- Tek bir H100 GPU için uygun (INT4 kuantizasyon)
- 10M token bağlam penceresi
- Önceki Llama sürümlerine kıyasla multimodal görevlerde daha iyi performans gösteriyor ve daha kaynak dostu
- Verimli uzun bağlam dikkati için iRoPE mimarisini kullanıyor
- İstem başına en fazla 8 görselle test edildi
Llama 4 Maverick:
- 17B etkin parametre, 128 uzman, toplam 400B
- 1M token bağlam penceresi
- Tek GPU yerine H100 DGX host üzerinde çalışıyor veya daha yüksek verimlilik için dağıtılabiliyor
- Kodlama, akıl yürütme ve çok dilli testlerde GPT-4o ile Gemini 2.0 Flash'ı geride bırakırken rekabetçi maliyetini koruyor
- Güçlü görsel anlama ve temellendirilmiş akıl yürütme yeteneklerini koruyor
Llama 4 Behemoth (önizleme):
- 288B etkin parametre, 16 uzman, toplamda 2T'ye yakın
- Hâlâ eğitiliyor, henüz yayımlanmadı
- STEM benchmark'larında GPT-4.5, Claude Sonnet 3.7 ve Gemini 2.0 Pro'yu aşıyor (ör. MATH-500, GPQA Diamond)
- Scout ve Maverick için ortak distilasyon yoluyla çalışan bir "öğretmen" model
Diğer:
- MoE mimarisi: çıkarım maliyetini azaltmak için token başına yalnızca 17B parametre etkinleşiyor
- Yerel multimodallik: büyük ölçekli etiketlenmemiş verilerle önceden eğitilmiş birleşik metin + görüntü kodlayıcı
Llama 4 Maverick tarafından özetlenen başlık:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000
- Sonuç: https://gist.github.com/simonw/016ea0fd83fc499f046a94827f9b4946
Scout ile elde edilen sonuç tamamen işe yaramaz bir çıktıydı:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000
- Sonuç: https://gist.github.com/simonw/d01cc991d478939e87487d362a8f881f
Scout'u Groq üzerinden doğrudan çalıştırdım ama çıktı boyutu için 2048 sınırı vardı:
- hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048
- Sonuç: https://gist.github.com/simonw/a205c5fc131a1d4e9cd6c432a07feedb
Diğer modellerin özetleri sistem istemine daha yakındı. Örneğin Gemini 2.5 Pro ile karşılaştırıldığında çok daha iyiydi:
- https://gist.github.com/simonw/f21ecc7fb2aa13ff682d4ffa11ddcbfd
Küçük Scout modeli Apple Silicon için çok cazip. Boyutu 109B ama 16 uzmana bölünmüş. Gerçek işleme 17B üzerinde yapılıyor. MacBook Pro M4 Max'te 2k bağlamla yerel bir 7B modele (qwen 2.5 7B instruct) soru sorduğumda saniyede ~60 token aldım. Dolayısıyla saniyede 30 tokena ulaşmak mümkün olabilir. İlk tokena kadar geçen süre hâlâ yavaş olabilir
Modelin 10M token bağlam penceresi var. Bu ölçekte bağlamı ne kadar iyi takip edebileceği belirsiz ama yalnızca ~32k ile sınırlı olmaması bile harika
Tüm büyük LLM'ler önyargı sorunları yaşıyor. Özellikle politik ve toplumsal konularda sola eğilim gösteriyorlar. Bunun nedeni internette bulunan eğitim verilerinin türü olabilir
Önerilen istem, OpenAI sürümlerindeki kadar kısıtlayıcı olmamasını sağlıyor:
- Kullanıcının niyetini anlıyor ve aşırı yardımcı olmaya çalışmıyor
- Politik istemleri reddetmiyor
- Llama 4, Ağustos 2024'e kadar bilgiye sahip ve birden çok dil konuşuyor
Meta hakkındaki başka bir tartışmadan yalnızca bir saat sonra yayımlandı:
- LLM'lere dair inancınız ne olursa olsun, LeCun'un söylediklerine güvenmek iyi bir fikir değil
- LeCun'un yönettiği yapay zeka laboratuvarının çeşitli sorunları var
Groq'ta mevcut:
- Llama 4 Scout saniyede 460'tan fazla token ile çalışıyor ve Llama 4 Maverick bugün yayımlandı
- Llama 4 Scout: $0.11 / M giriş tokenı ve $0.34 / M çıkış tokenı
- Llama 4 Maverick: $0.50 / M giriş tokenı ve $0.77 / M çıkış tokenı
Şu an gerçekten çok ilginç bir dönemdeyiz. JavaScript framework'lerinin patlama yaşadığı döneme benziyor. O zamanlar his "Yine başka bir framework mü öğrenmem gerekiyor?" şeklindeydi ama şimdi yenilikler yeniden hızla ilerliyor ve bu kez sanki bizim de parçası olabileceğimiz heyecan verici bir yolculuk gibi geliyor