4 puan yazan GN⁺ 2025-04-09 | 2 yorum | WhatsApp'ta paylaş
  • Meta, yeni iki Llama 4 modelini duyurdu: küçük model Scout ve orta ölçekli model Maverick
  • Meta, Maverick'in GPT-4o ve Gemini 2.0 Flash'tan daha iyi performans gösterdiğini iddia ediyor
  • Maverick, yapay zeka model karşılaştırma platformu LMArena'da 2. sıraya yerleşti
  • Açıklanan ELO puanı 1417; bu puan GPT-4o'dan yüksek, Gemini 2.5 Pro'dan ise biraz daha düşük
  • Yüksek ELO puanı, ilgili modelin diğer modellerle yapılan karşılaştırmalı değerlendirmelerde daha sık kazandığı anlamına geliyor

Benchmark manipülasyonu şüphesi

  • Yapay zeka araştırmacıları, Meta belgelerinde tuhaf bir noktayı fark etti
  • LMArena'da kullanılan Maverick sürümü, kamuya açık sürümden farklıydı
  • Meta, LMArena'da sohbet için optimize edilmiş deneysel bir sürüm kullandığını açıkladı
  • Söz konusu sürüm, “conversationality”ye odaklanan deneysel bir modeldi

Topluluk ve platform tepkisi

  • LMArena, Meta'nın politika yorumunun beklentileriyle örtüşmediğini belirten resmî bir açıklama yaptı
  • Meta deneysel sürümü açıkça işaretlemedi ve bunun üzerine LMArena, liderlik tablosu politikasını değiştireceğini duyurdu
  • Bunun, gelecekte adil ve yeniden üretilebilir değerlendirmeleri güvence altına almak için alınmış bir önlem olduğu belirtildi

Meta'nın açıklaması

  • Meta sözcüsü Ashley Gabriel, e-posta yoluyla yaptığı açıklamada farklı deneysel sürümleri test ettiklerini söyledi
  • “Llama-4-Maverick-03-26-Experimental, sohbet için optimize edilmiş deneysel bir model ve LMArena'da da güçlü performans gösterdi” ifadelerini kullandı

2 yorum

 
ndrgrd 2025-04-10

Elbette benchmark’lerde manipülasyon eksik olmaz.

 
GN⁺ 2025-04-09
Hacker News görüşleri
  • Llama 4'ün çıkışı Meta için büyük bir başarısızlık gibi görünüyor. Modelin performansı iyi değil. Tüm haberler olumsuz
    • Beklendiği gibi ama bu, Meta'nın bundan sonra ne yapacağını merak ettiriyor. Şu anda diğer açık modellere göre geride kalmış gibi görünüyorlar ve MoE'ler üzerine yaptıkları iddialı bahis de tutmamış gibi
    • Acaba Zuck çıkışı zorladı mı? Hazır olmadığını biliyor olmalıydı
  • Telif hakkı korumalı materyalleri çalan şirketlerin yine etik dışı davranmasına şaşırdım
  • Meta ilk kez yakalanmış oldu
  • LMArena'nın yayımladığı örnek battle'ları (H2H) görmek en açıklayıcı olanı. Meta'nın model çıktısı fazla uzun ve geveze. Kararlara bakınca insanların LMArena sıralamalarını görmezden gelmesi gayet anlaşılır
  • LMArena artık işe yaramaz mı?
    • Bunun aynı kullanıcı tarafından verilen sorguda iki modeli çalıştırma yönü olduğunu sanıyordum. Bunun manipüle edilemeyeceğini düşünmüştüm
    • "Sohbet optimizasyonu"nun ne anlama geldiğini anlamıyorum. Bunun LMArena'ya nasıl bir avantaj sağladığını da bilmiyorum
  • Meta, insanların deneyebileceği berbat bir halka açık yapay zeka ile kendine zarar veriyor (meta.ai). Ben düzenli olarak GPT 4o, Deepseek, Grok, Google Gemeni 2.5'in web sürümlerini kullanıyorum
    • Meta her zaman en kötüsü, o yüzden artık umursamıyorum
  • Kimse şaşırmayacaktır. Ayrıca Goodhart yasası yine devrede
  • Leaderboard'un üst sıraları kapalı ağırlıklı deneysel modellerle dolu
  • Bunun, prompt yazanı daha fazla pohpohlayacak veya daha çok yağ çekecek şekilde tasarlandığına inanıyorum. Eğer doğruysa, karşılaştırmayı yapan insanlar açısından endişe verici