- Scout, Maverick, Behemoth olmak üzere 3 modelden oluşan ilk açık ağırlık tabanlı yerel multimodal model
- Tüm modeller görüntü + metin anlayan multimodal yapıda
Llama 4 Scout
- 17B etkin parametre + 16 Expert
- 10M token destekleyen ultra uzun bağlam işleme yeteneği
- Tek bir GPU'da (H100) çalışabilen verimli ve hafif model
- Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1'i aşan performans
- Görsel hizalama, çoklu belge özetleme, büyük kod tabanı analizi gibi alanlarda üstün performans
Llama 4 Maverick
- 17B etkin parametre + 128 Expert + 400B toplam parametre
- GPT-4o ve Gemini 2.0 Flash'tan daha iyi performans
- Reasoning, kodlama, görüntü anlama gibi tüm alanlarda üstün
- 1417 ELO puanı (LMArena ölçütüne göre)
- Yüksek performansa karşılık verimli maliyet yapısı
Llama 4 Behemoth (önizleme)
- 288B etkin parametre + 16 Expert + yaklaşık 2T toplam parametre
- Hâlâ eğitiliyor, ancak GPT-4.5, Claude 3.7, Gemini 2.0 Pro'yu aşan performans
- Maverick modelinin ön eğitiminde öğretmen model olarak kullanılıyor
# Teknik özellikler
Mixture of Experts (MoE) mimarisi
- Tüm parametreleri kullanmak yerine, yalnızca bazı uzmanları etkinleştirerek hesaplama verimliliğini en üst düzeye çıkarır
- Hızlı çıkarım, düşük maliyet, yüksek kalite sunan bir eğitim yapısı
Yerel multimodal ve Early Fusion
- Metin ve görsel veriyi başlangıçtan itibaren entegre ederek ortak eğitim
- En fazla 48 görsel girişi mümkün, testler en fazla 8 görselle başarıyla yapıldı
Ultra uzun bağlam işleme (10M Tokens)
- Scout modeli, iRoPE (interleaved Rotary Position Embedding) yapısıyla 'sonsuz bağlam' olasılığını araştırıyor
- Metin ve kod için uzunluk genelleme performansı çok güçlü
MetaP & FP8 eğitim teknikleri
- Yüksek hızlı / yüksek verimli eğitim için yeni hiperparametre ayarlama tekniği
- FP8 hassasiyetiyle yüksek FLOPs kullanım oranı sağlandı (Behemoth: 390 TFLOPs/GPU)
# Son işleme ve RL eğitim stratejisi
- SFT → online RL → DPO şeklinde üç aşamalı son işleme hattı
- Kolay veriler çıkarıldı, eğitim orta ila yüksek zorluktaki prompt'lara odaklandı
- Sürekli online RL stratejisi benimsendi: performans artışı ve eğitim verimliliği en üst düzeye çıkarıldı
# Güvenlik ve etik değerlendirmeleri
Çok katmanlı koruma stratejisi
- Eğitim öncesi / sonrası aşamalarda veri filtreleme ve sansürleme
- Llama Guard: girdi/çıktı güvenlik denetimi
- Prompt Guard: jailbreak ve injection attack tespiti
- CyberSecEval: üretken yapay zekanın güvenlik risklerini değerlendirme aracı
Nicel risk tespitinin otomasyonu
- GOAT (Generative Offensive Agent Testing) kullanıma alındı
- Orta seviye saldırgan senaryolarının simülasyonu
- Otomatik çok turlu testlerle risklerin erken tespiti
Önyargıyı azaltma çalışmaları
- Llama 4'te Llama 3'e kıyasla önyargı önemli ölçüde iyileştirildi
- Yanıt reddetme oranı %7 → %2'nin altı
- Yanıt dengesizliği < %1
- Grok seviyesinde politik dengeye sahip yanıtlar korunuyor
# Llama 4 model kullanım rehberi
- Scout ve Maverick'in ikisi de indirilebilir ve kullanılabilir
- Meta AI hizmetine Llama 4 entegrasyonu:
- WhatsApp, Messenger, Instagram DM, meta.ai
# Gelecek takvim
- Daha fazla teknik ayrıntı ve vizyonun paylaşılacağı LlamaCon 2025, 29 Nisan'da düzenlenecek
2 yorum
RAM’i bol olan Apple Silicon veya NPU sınıfı sistemlere daha uygun görünüyor. Tamamen GPU sunucularında kullanmak içinse en düşük gereksinimli modelin bile int4 quantization’da H100 gerektirmesi biraz...
Hacker News görüşleri
Llama 4 modeline genel bakış:
Llama 4 Scout:
Llama 4 Maverick:
Llama 4 Behemoth (önizleme):
Diğer:
Llama 4 Maverick tarafından özetlenen başlık:
Scout ile elde edilen sonuç tamamen işe yaramaz bir çıktıydı:
Scout'u Groq üzerinden doğrudan çalıştırdım ama çıktı boyutu için 2048 sınırı vardı:
Diğer modellerin özetleri sistem istemine daha yakındı. Örneğin Gemini 2.5 Pro ile karşılaştırıldığında çok daha iyiydi:
Küçük Scout modeli Apple Silicon için çok cazip. Boyutu 109B ama 16 uzmana bölünmüş. Gerçek işleme 17B üzerinde yapılıyor. MacBook Pro M4 Max'te 2k bağlamla yerel bir 7B modele (qwen 2.5 7B instruct) soru sorduğumda saniyede ~60 token aldım. Dolayısıyla saniyede 30 tokena ulaşmak mümkün olabilir. İlk tokena kadar geçen süre hâlâ yavaş olabilir
Modelin 10M token bağlam penceresi var. Bu ölçekte bağlamı ne kadar iyi takip edebileceği belirsiz ama yalnızca ~32k ile sınırlı olmaması bile harika
Tüm büyük LLM'ler önyargı sorunları yaşıyor. Özellikle politik ve toplumsal konularda sola eğilim gösteriyorlar. Bunun nedeni internette bulunan eğitim verilerinin türü olabilir
Önerilen istem, OpenAI sürümlerindeki kadar kısıtlayıcı olmamasını sağlıyor:
Meta hakkındaki başka bir tartışmadan yalnızca bir saat sonra yayımlandı:
Groq'ta mevcut:
Şu an gerçekten çok ilginç bir dönemdeyiz. JavaScript framework'lerinin patlama yaşadığı döneme benziyor. O zamanlar his "Yine başka bir framework mü öğrenmem gerekiyor?" şeklindeydi ama şimdi yenilikler yeniden hızla ilerliyor ve bu kez sanki bizim de parçası olabileceğimiz heyecan verici bir yolculuk gibi geliyor