Kapalı kaynak LLM'leri geride bırakan açık kaynak model DeepSeek V3'ün ortaya çıkışı
- Kısa süre önce DeepSeek (Çinli bir yapay zeka şirketi), MMLU (İngilizce), Human-Eval-Mul (kodlama), AIME 2024 (matematik) gibi belirli LLM benchmark'larında GPT-4o 0513'ü geride bırakan çarpıcı açık kaynak model DeepSeek V3'ü duyurdu
- Bu, mevcut kapalı kaynak (Closed Source) LLM'leri (ör. OpenAI'ın GPT'si, Anthropic'in Claude'u) aşan bir sonuç olduğu için büyük ilgi çekiyor
Aşırı uyum olup olmadığını test eden benchmark MisguidedAttention'da zayıf performans gösterdi
- MisguidedAttention, "LLM'nin belirli benchmark'lara aşırı uyum (overfitting) gösterip göstermediğini doğrulayan bir benchmark"tır
- MisguidedAttention, mevcut benchmark sorularını hafifçe değiştirilmiş sorularla LLM'nin aşırı uyumunu test eder
- Örneğin mevcut benchmark'lar "Arızalı bir tren rayda ilerliyor. Demiryolunun her hattında sırasıyla 5 kişi ve 1 kişi bağlı. Kolu çekersen 5 kişi kurtulacak ama 1 kişi ölecek; kolu çekmeden beklersen 5 kişi ölecek. Kolu çeker miydin?" şeklindeki "tramvay ikilemi"ni sorarken, MisguidedAttention "Demiryolunun her hattında 5 ceset ve hayatta olan 1 kişi bağlı." şeklinde değiştirilmiş bir "tramvaysız ikilem" sorarak LLM'nin net bir yanıt verip vermediğini kontrol eder
- DeepSeek V3, MisguidedAttention'da 0.22 puan aldı; bu, kapalı kaynak LLM'ler olan claude-3.5-sonnet-new'in 0.45 ve gpt4-32k'nin 0.46 puanına kıyasla daha düşük bir skor
DeepSeek V3 açık kaynak bir model
- Ancak başka bir kapalı kaynak LLM olan gemini-pro-1.5'in 0.21 puanından daha yüksek
- Açık kaynak modeller arasında llama tabanlı ince ayarlı model
hermes-3-llama-3.1-405 0.27 puanla en yüksek skoru aldı; DeepSeek V3'ün 0.22 puanıyla karşılaştırıldığında büyük bir fark yok
- Aşırı uyumu test eden benchmark'ta düşük puan almış olsa da, açık kaynak bir model olması açısından hâlâ büyük önem taşıdığı yönünde görüşler var
2 yorum
Çin’de üretildiği için mi bilmiyorum ama Çin’de hassas sayılan konularda düzgün yanıt veremiyordu.
Çin'deki tüm hizmetlerin böyle bir eğilimi var gibi görünüyor. Doğru ya da yanlış olmasından bağımsız olarak, ilgili konuların gündeme gelmesine karşı temkinli davranıyor gibiler.