2 puan yazan jhj0517 2024-12-31 | 2 yorum | WhatsApp'ta paylaş

Kapalı kaynak LLM'leri geride bırakan açık kaynak model DeepSeek V3'ün ortaya çıkışı

  • Kısa süre önce DeepSeek (Çinli bir yapay zeka şirketi), MMLU (İngilizce), Human-Eval-Mul (kodlama), AIME 2024 (matematik) gibi belirli LLM benchmark'larında GPT-4o 0513'ü geride bırakan çarpıcı açık kaynak model DeepSeek V3'ü duyurdu
  • Bu, mevcut kapalı kaynak (Closed Source) LLM'leri (ör. OpenAI'ın GPT'si, Anthropic'in Claude'u) aşan bir sonuç olduğu için büyük ilgi çekiyor

Aşırı uyum olup olmadığını test eden benchmark MisguidedAttention'da zayıf performans gösterdi

  • MisguidedAttention, "LLM'nin belirli benchmark'lara aşırı uyum (overfitting) gösterip göstermediğini doğrulayan bir benchmark"tır
  • MisguidedAttention, mevcut benchmark sorularını hafifçe değiştirilmiş sorularla LLM'nin aşırı uyumunu test eder
  • Örneğin mevcut benchmark'lar "Arızalı bir tren rayda ilerliyor. Demiryolunun her hattında sırasıyla 5 kişi ve 1 kişi bağlı. Kolu çekersen 5 kişi kurtulacak ama 1 kişi ölecek; kolu çekmeden beklersen 5 kişi ölecek. Kolu çeker miydin?" şeklindeki "tramvay ikilemi"ni sorarken, MisguidedAttention "Demiryolunun her hattında 5 ceset ve hayatta olan 1 kişi bağlı." şeklinde değiştirilmiş bir "tramvaysız ikilem" sorarak LLM'nin net bir yanıt verip vermediğini kontrol eder
  • DeepSeek V3, MisguidedAttention'da 0.22 puan aldı; bu, kapalı kaynak LLM'ler olan claude-3.5-sonnet-new'in 0.45 ve gpt4-32k'nin 0.46 puanına kıyasla daha düşük bir skor

DeepSeek V3 açık kaynak bir model

  • Ancak başka bir kapalı kaynak LLM olan gemini-pro-1.5'in 0.21 puanından daha yüksek
  • Açık kaynak modeller arasında llama tabanlı ince ayarlı model hermes-3-llama-3.1-405 0.27 puanla en yüksek skoru aldı; DeepSeek V3'ün 0.22 puanıyla karşılaştırıldığında büyük bir fark yok
  • Aşırı uyumu test eden benchmark'ta düşük puan almış olsa da, açık kaynak bir model olması açısından hâlâ büyük önem taşıdığı yönünde görüşler var

2 yorum

 
dohyun682 2024-12-31

Çin’de üretildiği için mi bilmiyorum ama Çin’de hassas sayılan konularda düzgün yanıt veremiyordu.

 
jhj0517 2024-12-31

Çin'deki tüm hizmetlerin böyle bir eğilimi var gibi görünüyor. Doğru ya da yanlış olmasından bağımsız olarak, ilgili konuların gündeme gelmesine karşı temkinli davranıyor gibiler.