DeepSeek V3, aşırı uyum olup olmadığını test eden benchmark'ta zayıf performans gösterdi

(github.com/cpldcpu)

2 puan yazan jhj0517 2024-12-31 | 2 yorum | WhatsApp'ta paylaş

Kapalı kaynak LLM'leri geride bırakan açık kaynak model DeepSeek V3'ün ortaya çıkışı

Kısa süre önce DeepSeek (Çinli bir yapay zeka şirketi), MMLU (İngilizce), Human-Eval-Mul (kodlama), AIME 2024 (matematik) gibi belirli LLM benchmark'larında GPT-4o 0513'ü geride bırakan çarpıcı açık kaynak model DeepSeek V3'ü duyurdu
Bu, mevcut kapalı kaynak (Closed Source) LLM'leri (ör. OpenAI'ın GPT'si, Anthropic'in Claude'u) aşan bir sonuç olduğu için büyük ilgi çekiyor

Aşırı uyum olup olmadığını test eden benchmark MisguidedAttention'da zayıf performans gösterdi

MisguidedAttention, "LLM'nin belirli benchmark'lara aşırı uyum (overfitting) gösterip göstermediğini doğrulayan bir benchmark"tır
MisguidedAttention, mevcut benchmark sorularını hafifçe değiştirilmiş sorularla LLM'nin aşırı uyumunu test eder
Örneğin mevcut benchmark'lar "Arızalı bir tren rayda ilerliyor. Demiryolunun her hattında sırasıyla 5 kişi ve 1 kişi bağlı. Kolu çekersen 5 kişi kurtulacak ama 1 kişi ölecek; kolu çekmeden beklersen 5 kişi ölecek. Kolu çeker miydin?" şeklindeki "tramvay ikilemi"ni sorarken, MisguidedAttention "Demiryolunun her hattında 5 ceset ve hayatta olan 1 kişi bağlı." şeklinde değiştirilmiş bir "tramvaysız ikilem" sorarak LLM'nin net bir yanıt verip vermediğini kontrol eder
DeepSeek V3, MisguidedAttention'da 0.22 puan aldı; bu, kapalı kaynak LLM'ler olan claude-3.5-sonnet-new'in 0.45 ve gpt4-32k'nin 0.46 puanına kıyasla daha düşük bir skor

DeepSeek V3 açık kaynak bir model

Ancak başka bir kapalı kaynak LLM olan gemini-pro-1.5'in 0.21 puanından daha yüksek
Açık kaynak modeller arasında llama tabanlı ince ayarlı model hermes-3-llama-3.1-405 0.27 puanla en yüksek skoru aldı; DeepSeek V3'ün 0.22 puanıyla karşılaştırıldığında büyük bir fark yok
Aşırı uyumu test eden benchmark'ta düşük puan almış olsa da, açık kaynak bir model olması açısından hâlâ büyük önem taşıdığı yönünde görüşler var

2 yorum

dohyun682 2024-12-31

Çin’de üretildiği için mi bilmiyorum ama Çin’de hassas sayılan konularda düzgün yanıt veremiyordu.

jhj0517 2024-12-31

Çin'deki tüm hizmetlerin böyle bir eğilimi var gibi görünüyor. Doğru ya da yanlış olmasından bağımsız olarak, ilgili konuların gündeme gelmesine karşı temkinli davranıyor gibiler.