- Meta, yeni iki Llama 4 modelini duyurdu: küçük model Scout ve orta ölçekli model Maverick
- Meta, Maverick'in GPT-4o ve Gemini 2.0 Flash'tan daha iyi performans gösterdiğini iddia ediyor
- Maverick, yapay zeka model karşılaştırma platformu LMArena'da 2. sıraya yerleşti
- Açıklanan ELO puanı 1417; bu puan GPT-4o'dan yüksek, Gemini 2.5 Pro'dan ise biraz daha düşük
- Yüksek ELO puanı, ilgili modelin diğer modellerle yapılan karşılaştırmalı değerlendirmelerde daha sık kazandığı anlamına geliyor
Benchmark manipülasyonu şüphesi
- Yapay zeka araştırmacıları, Meta belgelerinde tuhaf bir noktayı fark etti
- LMArena'da kullanılan Maverick sürümü, kamuya açık sürümden farklıydı
- Meta, LMArena'da sohbet için optimize edilmiş deneysel bir sürüm kullandığını açıkladı
- Söz konusu sürüm, “conversationality”ye odaklanan deneysel bir modeldi
Topluluk ve platform tepkisi
- LMArena, Meta'nın politika yorumunun beklentileriyle örtüşmediğini belirten resmî bir açıklama yaptı
- Meta deneysel sürümü açıkça işaretlemedi ve bunun üzerine LMArena, liderlik tablosu politikasını değiştireceğini duyurdu
- Bunun, gelecekte adil ve yeniden üretilebilir değerlendirmeleri güvence altına almak için alınmış bir önlem olduğu belirtildi
Meta'nın açıklaması
- Meta sözcüsü Ashley Gabriel, e-posta yoluyla yaptığı açıklamada farklı deneysel sürümleri test ettiklerini söyledi
- “Llama-4-Maverick-03-26-Experimental, sohbet için optimize edilmiş deneysel bir model ve LMArena'da da güçlü performans gösterdi” ifadelerini kullandı
2 yorum
Elbette benchmark’lerde manipülasyon eksik olmaz.
Hacker News görüşleri