16 puan yazan GN⁺ 2025-04-06 | 2 yorum | WhatsApp'ta paylaş
  • Scout, Maverick, Behemoth olmak üzere 3 modelden oluşan ilk açık ağırlık tabanlı yerel multimodal model
    • Tüm modeller görüntü + metin anlayan multimodal yapıda

Llama 4 Scout

  • 17B etkin parametre + 16 Expert
  • 10M token destekleyen ultra uzun bağlam işleme yeteneği
  • Tek bir GPU'da (H100) çalışabilen verimli ve hafif model
  • Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1'i aşan performans
  • Görsel hizalama, çoklu belge özetleme, büyük kod tabanı analizi gibi alanlarda üstün performans

Llama 4 Maverick

  • 17B etkin parametre + 128 Expert + 400B toplam parametre
  • GPT-4o ve Gemini 2.0 Flash'tan daha iyi performans
  • Reasoning, kodlama, görüntü anlama gibi tüm alanlarda üstün
  • 1417 ELO puanı (LMArena ölçütüne göre)
  • Yüksek performansa karşılık verimli maliyet yapısı

Llama 4 Behemoth (önizleme)

  • 288B etkin parametre + 16 Expert + yaklaşık 2T toplam parametre
  • Hâlâ eğitiliyor, ancak GPT-4.5, Claude 3.7, Gemini 2.0 Pro'yu aşan performans
  • Maverick modelinin ön eğitiminde öğretmen model olarak kullanılıyor

# Teknik özellikler

Mixture of Experts (MoE) mimarisi

  • Tüm parametreleri kullanmak yerine, yalnızca bazı uzmanları etkinleştirerek hesaplama verimliliğini en üst düzeye çıkarır
  • Hızlı çıkarım, düşük maliyet, yüksek kalite sunan bir eğitim yapısı

Yerel multimodal ve Early Fusion

  • Metin ve görsel veriyi başlangıçtan itibaren entegre ederek ortak eğitim
  • En fazla 48 görsel girişi mümkün, testler en fazla 8 görselle başarıyla yapıldı

Ultra uzun bağlam işleme (10M Tokens)

  • Scout modeli, iRoPE (interleaved Rotary Position Embedding) yapısıyla 'sonsuz bağlam' olasılığını araştırıyor
  • Metin ve kod için uzunluk genelleme performansı çok güçlü

MetaP & FP8 eğitim teknikleri

  • Yüksek hızlı / yüksek verimli eğitim için yeni hiperparametre ayarlama tekniği
  • FP8 hassasiyetiyle yüksek FLOPs kullanım oranı sağlandı (Behemoth: 390 TFLOPs/GPU)

# Son işleme ve RL eğitim stratejisi

  • SFT → online RL → DPO şeklinde üç aşamalı son işleme hattı
  • Kolay veriler çıkarıldı, eğitim orta ila yüksek zorluktaki prompt'lara odaklandı
  • Sürekli online RL stratejisi benimsendi: performans artışı ve eğitim verimliliği en üst düzeye çıkarıldı

# Güvenlik ve etik değerlendirmeleri

Çok katmanlı koruma stratejisi

  • Eğitim öncesi / sonrası aşamalarda veri filtreleme ve sansürleme
  • Llama Guard: girdi/çıktı güvenlik denetimi
  • Prompt Guard: jailbreak ve injection attack tespiti
  • CyberSecEval: üretken yapay zekanın güvenlik risklerini değerlendirme aracı

Nicel risk tespitinin otomasyonu

  • GOAT (Generative Offensive Agent Testing) kullanıma alındı
    • Orta seviye saldırgan senaryolarının simülasyonu
    • Otomatik çok turlu testlerle risklerin erken tespiti

Önyargıyı azaltma çalışmaları

  • Llama 4'te Llama 3'e kıyasla önyargı önemli ölçüde iyileştirildi
    • Yanıt reddetme oranı %7 → %2'nin altı
    • Yanıt dengesizliği < %1
    • Grok seviyesinde politik dengeye sahip yanıtlar korunuyor

# Llama 4 model kullanım rehberi

  • Scout ve Maverick'in ikisi de indirilebilir ve kullanılabilir
  • Meta AI hizmetine Llama 4 entegrasyonu:
    • WhatsApp, Messenger, Instagram DM, meta.ai

# Gelecek takvim

  • Daha fazla teknik ayrıntı ve vizyonun paylaşılacağı LlamaCon 2025, 29 Nisan'da düzenlenecek

2 yorum

 
jjw951215 2025-04-07

RAM’i bol olan Apple Silicon veya NPU sınıfı sistemlere daha uygun görünüyor. Tamamen GPU sunucularında kullanmak içinse en düşük gereksinimli modelin bile int4 quantization’da H100 gerektirmesi biraz...

 
GN⁺ 2025-04-06
Hacker News görüşleri
  • Llama 4 modeline genel bakış:

    • Llama 4 Scout ve Llama 4 Maverick, sırasıyla 17B etkin parametre kullanan Mixture-of-Experts (MoE) tasarımını kullanıyor
    • Metin ve görsel girdilerini destekleyen multimodal özelliklere sahip
    • Başlıca başarıları arasında sektör lideri bağlam uzunluğu, güçlü kodlama/akıl yürütme performansı ve geliştirilmiş çok dilli destek yer alıyor
    • Bilgi kesim tarihi Ağustos 2024
  • Llama 4 Scout:

    • 17B etkin parametre, 16 uzman, toplam 109B
    • Tek bir H100 GPU için uygun (INT4 kuantizasyon)
    • 10M token bağlam penceresi
    • Önceki Llama sürümlerine kıyasla multimodal görevlerde daha iyi performans gösteriyor ve daha kaynak dostu
    • Verimli uzun bağlam dikkati için iRoPE mimarisini kullanıyor
    • İstem başına en fazla 8 görselle test edildi
  • Llama 4 Maverick:

    • 17B etkin parametre, 128 uzman, toplam 400B
    • 1M token bağlam penceresi
    • Tek GPU yerine H100 DGX host üzerinde çalışıyor veya daha yüksek verimlilik için dağıtılabiliyor
    • Kodlama, akıl yürütme ve çok dilli testlerde GPT-4o ile Gemini 2.0 Flash'ı geride bırakırken rekabetçi maliyetini koruyor
    • Güçlü görsel anlama ve temellendirilmiş akıl yürütme yeteneklerini koruyor
  • Llama 4 Behemoth (önizleme):

    • 288B etkin parametre, 16 uzman, toplamda 2T'ye yakın
    • Hâlâ eğitiliyor, henüz yayımlanmadı
    • STEM benchmark'larında GPT-4.5, Claude Sonnet 3.7 ve Gemini 2.0 Pro'yu aşıyor (ör. MATH-500, GPQA Diamond)
    • Scout ve Maverick için ortak distilasyon yoluyla çalışan bir "öğretmen" model
  • Diğer:

    • MoE mimarisi: çıkarım maliyetini azaltmak için token başına yalnızca 17B parametre etkinleşiyor
    • Yerel multimodallik: büyük ölçekli etiketlenmemiş verilerle önceden eğitilmiş birleşik metin + görüntü kodlayıcı
  • Llama 4 Maverick tarafından özetlenen başlık:

  • Scout ile elde edilen sonuç tamamen işe yaramaz bir çıktıydı:

  • Scout'u Groq üzerinden doğrudan çalıştırdım ama çıktı boyutu için 2048 sınırı vardı:

  • Diğer modellerin özetleri sistem istemine daha yakındı. Örneğin Gemini 2.5 Pro ile karşılaştırıldığında çok daha iyiydi:

  • Küçük Scout modeli Apple Silicon için çok cazip. Boyutu 109B ama 16 uzmana bölünmüş. Gerçek işleme 17B üzerinde yapılıyor. MacBook Pro M4 Max'te 2k bağlamla yerel bir 7B modele (qwen 2.5 7B instruct) soru sorduğumda saniyede ~60 token aldım. Dolayısıyla saniyede 30 tokena ulaşmak mümkün olabilir. İlk tokena kadar geçen süre hâlâ yavaş olabilir

  • Modelin 10M token bağlam penceresi var. Bu ölçekte bağlamı ne kadar iyi takip edebileceği belirsiz ama yalnızca ~32k ile sınırlı olmaması bile harika

  • Tüm büyük LLM'ler önyargı sorunları yaşıyor. Özellikle politik ve toplumsal konularda sola eğilim gösteriyorlar. Bunun nedeni internette bulunan eğitim verilerinin türü olabilir

  • Önerilen istem, OpenAI sürümlerindeki kadar kısıtlayıcı olmamasını sağlıyor:

    • Kullanıcının niyetini anlıyor ve aşırı yardımcı olmaya çalışmıyor
    • Politik istemleri reddetmiyor
    • Llama 4, Ağustos 2024'e kadar bilgiye sahip ve birden çok dil konuşuyor
  • Meta hakkındaki başka bir tartışmadan yalnızca bir saat sonra yayımlandı:

    • LLM'lere dair inancınız ne olursa olsun, LeCun'un söylediklerine güvenmek iyi bir fikir değil
    • LeCun'un yönettiği yapay zeka laboratuvarının çeşitli sorunları var
  • Groq'ta mevcut:

    • Llama 4 Scout saniyede 460'tan fazla token ile çalışıyor ve Llama 4 Maverick bugün yayımlandı
    • Llama 4 Scout: $0.11 / M giriş tokenı ve $0.34 / M çıkış tokenı
    • Llama 4 Maverick: $0.50 / M giriş tokenı ve $0.77 / M çıkış tokenı
  • Şu an gerçekten çok ilginç bir dönemdeyiz. JavaScript framework'lerinin patlama yaşadığı döneme benziyor. O zamanlar his "Yine başka bir framework mü öğrenmem gerekiyor?" şeklindeydi ama şimdi yenilikler yeniden hızla ilerliyor ve bu kez sanki bizim de parçası olabileceğimiz heyecan verici bir yolculuk gibi geliyor