Meta, yapay zeka benchmark manipülasyonu tartışmasının odağında

(theverge.com)

4 puan yazan GN⁺ 2025-04-09 | 2 yorum | WhatsApp'ta paylaş

Meta, yeni iki Llama 4 modelini duyurdu: küçük model Scout ve orta ölçekli model Maverick
Meta, Maverick'in GPT-4o ve Gemini 2.0 Flash'tan daha iyi performans gösterdiğini iddia ediyor
Maverick, yapay zeka model karşılaştırma platformu LMArena'da 2. sıraya yerleşti
Açıklanan ELO puanı 1417; bu puan GPT-4o'dan yüksek, Gemini 2.5 Pro'dan ise biraz daha düşük
Yüksek ELO puanı, ilgili modelin diğer modellerle yapılan karşılaştırmalı değerlendirmelerde daha sık kazandığı anlamına geliyor

Benchmark manipülasyonu şüphesi

Yapay zeka araştırmacıları, Meta belgelerinde tuhaf bir noktayı fark etti
LMArena'da kullanılan Maverick sürümü, kamuya açık sürümden farklıydı
Meta, LMArena'da sohbet için optimize edilmiş deneysel bir sürüm kullandığını açıkladı
Söz konusu sürüm, “conversationality”ye odaklanan deneysel bir modeldi

Topluluk ve platform tepkisi

LMArena, Meta'nın politika yorumunun beklentileriyle örtüşmediğini belirten resmî bir açıklama yaptı
Meta deneysel sürümü açıkça işaretlemedi ve bunun üzerine LMArena, liderlik tablosu politikasını değiştireceğini duyurdu
Bunun, gelecekte adil ve yeniden üretilebilir değerlendirmeleri güvence altına almak için alınmış bir önlem olduğu belirtildi

Meta'nın açıklaması

Meta sözcüsü Ashley Gabriel, e-posta yoluyla yaptığı açıklamada farklı deneysel sürümleri test ettiklerini söyledi
“Llama-4-Maverick-03-26-Experimental, sohbet için optimize edilmiş deneysel bir model ve LMArena'da da güçlü performans gösterdi” ifadelerini kullandı

2 yorum

ndrgrd 2025-04-10

Elbette benchmark’lerde manipülasyon eksik olmaz.

GN⁺ 2025-04-09

Hacker News görüşleri

Llama 4'ün çıkışı Meta için büyük bir başarısızlık gibi görünüyor. Modelin performansı iyi değil. Tüm haberler olumsuz
- Beklendiği gibi ama bu, Meta'nın bundan sonra ne yapacağını merak ettiriyor. Şu anda diğer açık modellere göre geride kalmış gibi görünüyorlar ve MoE'ler üzerine yaptıkları iddialı bahis de tutmamış gibi
- Acaba Zuck çıkışı zorladı mı? Hazır olmadığını biliyor olmalıydı
Telif hakkı korumalı materyalleri çalan şirketlerin yine etik dışı davranmasına şaşırdım
Meta ilk kez yakalanmış oldu
LMArena'nın yayımladığı örnek battle'ları (H2H) görmek en açıklayıcı olanı. Meta'nın model çıktısı fazla uzun ve geveze. Kararlara bakınca insanların LMArena sıralamalarını görmezden gelmesi gayet anlaşılır
LMArena artık işe yaramaz mı?
- Bunun aynı kullanıcı tarafından verilen sorguda iki modeli çalıştırma yönü olduğunu sanıyordum. Bunun manipüle edilemeyeceğini düşünmüştüm
- "Sohbet optimizasyonu"nun ne anlama geldiğini anlamıyorum. Bunun LMArena'ya nasıl bir avantaj sağladığını da bilmiyorum
Meta, insanların deneyebileceği berbat bir halka açık yapay zeka ile kendine zarar veriyor (meta.ai). Ben düzenli olarak GPT 4o, Deepseek, Grok, Google Gemeni 2.5'in web sürümlerini kullanıyorum
- Meta her zaman en kötüsü, o yüzden artık umursamıyorum
Kimse şaşırmayacaktır. Ayrıca Goodhart yasası yine devrede
Leaderboard'un üst sıraları kapalı ağırlıklı deneysel modellerle dolu
Bunun, prompt yazanı daha fazla pohpohlayacak veya daha çok yağ çekecek şekilde tasarlandığına inanıyorum. Eğer doğruysa, karşılaştırmayı yapan insanlar açısından endişe verici

Meta, yapay zeka benchmark manipülasyonu tartışmasının odağında

Benchmark manipülasyonu şüphesi

Topluluk ve platform tepkisi

Meta'nın açıklaması

İlgili okumalar

2 yorum

Hacker News görüşleri