Yi - Yeni Nesil Açık Kaynak İki Dilli LLM

xguru · 2024-03-12T10:03:02+09:00

Geliştiriciler tarafından sıfırdan eğitilmiş yeni nesil açık kaynak büyük dil modeli İki dilli bir model hedefiyle 3T çok dilli corpus üzerinde eğitildi; dil anlama, sağduyulu akıl yürütme ve okuduğunu anlama gibi alanlarda güçlü performans gösteriyor 6B ve 34B önceden eğitilmiş dil modellerini temel alıyor ve chatbot modeli, 200K uzun bağlam modeli, derinlik upscale modeli ve vision-language modeli olarak genişletiliyor Yi-34B-Chat modeli AlpacaEval liderlik tablosunda GPT-4 Turbo'nun ardından 2. sırayı alarak diğer LLM'leri geride bırakıyor Hem İngilizce hem Çince'de mevcut açık kaynak modelleri geride bırakıyor ve çeşitli benchmark'larda 1. sırayı alıyor Llama ile aynı model mimarisini benimsiyor ancak Llama'dan türetilmiş bir model değil. Llama ağırlıkları kullanılmıyor Farklı boyutlarda sunuluyor ve belirli gereksinimlere göre model fine-tune edilebiliyor Sohbet modelleri Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits Temel modeller Yi-34B, Yi-34B-200K Yi-9B Yi-6B, Yi-6B-200K

(github.com/01-ai)

9 puan yazan xguru 2024-03-12 | 1 yorum | WhatsApp'ta paylaş

Geliştiriciler tarafından sıfırdan eğitilmiş yeni nesil açık kaynak büyük dil modeli
İki dilli bir model hedefiyle 3T çok dilli corpus üzerinde eğitildi; dil anlama, sağduyulu akıl yürütme ve okuduğunu anlama gibi alanlarda güçlü performans gösteriyor
6B ve 34B önceden eğitilmiş dil modellerini temel alıyor ve chatbot modeli, 200K uzun bağlam modeli, derinlik upscale modeli ve vision-language modeli olarak genişletiliyor
Yi-34B-Chat modeli
- AlpacaEval liderlik tablosunda GPT-4 Turbo'nun ardından 2. sırayı alarak diğer LLM'leri geride bırakıyor
- Hem İngilizce hem Çince'de mevcut açık kaynak modelleri geride bırakıyor ve çeşitli benchmark'larda 1. sırayı alıyor
Llama ile aynı model mimarisini benimsiyor ancak Llama'dan türetilmiş bir model değil. Llama ağırlıkları kullanılmıyor
Farklı boyutlarda sunuluyor ve belirli gereksinimlere göre model fine-tune edilebiliyor
- Sohbet modelleri
  - Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
  - Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
- Temel modeller
  - Yi-34B, Yi-34B-200K
  - Yi-9B
  - Yi-6B, Yi-6B-200K
  Reklam

1 yorum

xguru 2024-03-12

Hacker News görüşleri

Yi-34B-Chat modeli, AlpacaEval liderlik tablosunda GPT-4 Turbo'nun ardından 2. sırayı alarak GPT-4, Mixtral, Claude ve diğer LLM'leri geride bıraktı.
Yi-34B modeli, İngilizce ve Çince benchmark'larda açık kaynak modeller arasında 1. sırada yer alıyor. Bu, Hugging Face Open LLM Leaderboard (önceden eğitilmiş modeller) ve C-Eval'e dayanıyor.
Depodaki kaynak kod Apache 2.0 lisansına tabi, ancak ağırlıklar buna dahil değil.
Yi modeli belirli test prompt'larında başarısız oluyor. Birkaç kez denense de Yi her seferinde farklı yanıtlardan birini kazanan olarak seçiyor.
"01.ai" adı, 'Matrix' filminde insanlıkla savaşan ve insanları köleleştiren ilk yapay zeka devletinin adıyla aynı olduğu için pek hayırlı bir çağrışım yapmıyor.
Yi modelinin performansı, veri mühendisliği çalışmaları sayesinde elde edilen veri kalitesinden kaynaklanıyor.
Yi 34B Chat modeli, NYT Connections benchmark'ında iyi sonuç vermiyor ve LMSYS Elo tabanlı liderlik tablosunda 22. sırada yer alıyor. Çince'de daha iyi performans gösteriyor.
Bu tür modellerin performansının arttığını görmek, 2-3 yıl içinde mobil öncelikli LLM'lerin metinden konuşmaya ve yazma tahminine ciddi iyileştirmeler getirirken pil tüketimini de büyük ölçüde azaltacağına dair umut veriyor.
Yi-9B adlı yeni bir model de var.

Yi - Yeni Nesil Açık Kaynak İki Dilli LLM

İlgili okumalar

1 yorum

Hacker News görüşleri