9 puan yazan xguru 2024-03-12 | 1 yorum | WhatsApp'ta paylaş
  • Geliştiriciler tarafından sıfırdan eğitilmiş yeni nesil açık kaynak büyük dil modeli
  • İki dilli bir model hedefiyle 3T çok dilli corpus üzerinde eğitildi; dil anlama, sağduyulu akıl yürütme ve okuduğunu anlama gibi alanlarda güçlü performans gösteriyor
  • 6B ve 34B önceden eğitilmiş dil modellerini temel alıyor ve chatbot modeli, 200K uzun bağlam modeli, derinlik upscale modeli ve vision-language modeli olarak genişletiliyor
  • Yi-34B-Chat modeli
    • AlpacaEval liderlik tablosunda GPT-4 Turbo'nun ardından 2. sırayı alarak diğer LLM'leri geride bırakıyor
    • Hem İngilizce hem Çince'de mevcut açık kaynak modelleri geride bırakıyor ve çeşitli benchmark'larda 1. sırayı alıyor
  • Llama ile aynı model mimarisini benimsiyor ancak Llama'dan türetilmiş bir model değil. Llama ağırlıkları kullanılmıyor
  • Farklı boyutlarda sunuluyor ve belirli gereksinimlere göre model fine-tune edilebiliyor
    • Sohbet modelleri
      • Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
      • Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
    • Temel modeller
      • Yi-34B, Yi-34B-200K
      • Yi-9B
      • Yi-6B, Yi-6B-200K
      Reklam

1 yorum

 
xguru 2024-03-12

Hacker News görüşleri

  • Yi-34B-Chat modeli, AlpacaEval liderlik tablosunda GPT-4 Turbo'nun ardından 2. sırayı alarak GPT-4, Mixtral, Claude ve diğer LLM'leri geride bıraktı.
  • Yi-34B modeli, İngilizce ve Çince benchmark'larda açık kaynak modeller arasında 1. sırada yer alıyor. Bu, Hugging Face Open LLM Leaderboard (önceden eğitilmiş modeller) ve C-Eval'e dayanıyor.
  • Depodaki kaynak kod Apache 2.0 lisansına tabi, ancak ağırlıklar buna dahil değil.
  • Yi modeli belirli test prompt'larında başarısız oluyor. Birkaç kez denense de Yi her seferinde farklı yanıtlardan birini kazanan olarak seçiyor.
  • "01.ai" adı, 'Matrix' filminde insanlıkla savaşan ve insanları köleleştiren ilk yapay zeka devletinin adıyla aynı olduğu için pek hayırlı bir çağrışım yapmıyor.
  • Yi modelinin performansı, veri mühendisliği çalışmaları sayesinde elde edilen veri kalitesinden kaynaklanıyor.
  • Yi 34B Chat modeli, NYT Connections benchmark'ında iyi sonuç vermiyor ve LMSYS Elo tabanlı liderlik tablosunda 22. sırada yer alıyor. Çince'de daha iyi performans gösteriyor.
  • Bu tür modellerin performansının arttığını görmek, 2-3 yıl içinde mobil öncelikli LLM'lerin metinden konuşmaya ve yazma tahminine ciddi iyileştirmeler getirirken pil tüketimini de büyük ölçüde azaltacağına dair umut veriyor.
  • Yi-9B adlı yeni bir model de var.