Alibaba, Qwen 2 modelini duyurdu
(qwenlm.github.io)- Qwen2, Qwen1.5’ten geliştirilen bir model ailesi olup 5 farklı boyutta ön eğitimli ve talimat ayarlı modeller içeriyor
- Model boyutları: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
- İngilizce ve Çince dışında 27 dilde ek veriyle eğitim aldı
- Çok sayıda benchmark değerlendirmesinde son teknoloji performans gösterirken, özellikle kodlama ve matematik alanlarında performans önemli ölçüde iyileşti
- Qwen2-7B-Instruct ve Qwen2-72B-Instruct modelleri, YARN kullanarak en fazla 128K token’lık genişletilmiş bağlam uzunluğunu destekliyor
Qwen2 model bilgileri
- Tüm model boyutlarında Group Query Attention (GQA) uygulanarak çıkarım hızı artırıldı ve bellek kullanımı azaltıldı
- Küçük modellerde embedding tying tekniğinin kullanımı tercih ediliyor
- Talimat ayarlı modellerin bağlam uzunluğu işleme yeteneği, Needle in a Haystack görevi üzerinden değerlendirildi
- YARN teknolojisi sayesinde Qwen2-7B-Instruct ve Qwen2-72B-Instruct, 128K token’a kadar işleyebiliyor
Performans
- İngilizce ve Çince dışında 27 dildeki veri kümeleriyle ön eğitim ve talimat ayarı yapılarak çok dilli yetenekler güçlendirildi
- Code-switching işleme yeteneği büyük ölçüde iyileştirildi
- Ön eğitim veri kümesi ve optimize edilmiş eğitim yöntemleri sayesinde Qwen2-72B, Llama-3-70B gibi güncel modellerden daha iyi performans gösteriyor
- Sonraki eğitim süreciyle kodlama, matematik, akıl yürütme, talimat yerine getirme ve çok dilli anlama gibi yetenekler daha da geliştirildi; ayrıca insan değerleriyle hizalama da sağlandı
- 16 benchmark’ta Qwen2-72B-Instruct, Qwen1.5-72B-Chat’i açık farkla geride bırakırken Llama-3-70B-Instruct ile kıyaslanabilir performans gösteriyor
- Daha küçük Qwen2 modelleri de benzer veya daha büyük SOTA modelleri geride bırakıyor. Özellikle kodlama ve Çince ile ilgili metriklerde öne çıkıyor
Öne çıkan noktalar
- CodeQwen1.5’in kod eğitimi deneyimi ve verileri entegre edilerek Qwen2-72B-Instruct’in farklı programlama dillerindeki performansı önemli ölçüde artırıldı
- Geniş kapsamlı ve yüksek kaliteli veri kümeleri kullanılarak Qwen2-72B-Instruct’in matematik problemi çözme yeteneği güçlendirildi
- 128K uzunluğundaki bilgi çıkarımı görevlerini Qwen2-72B-Instruct kusursuz şekilde işleyebiliyor
- 1 milyon token’lık belge işleme için verimli bir ajan çözümü de açık kaynak olarak yayımlandı
- Çok dilli zararlı sorguların 4 türünde zararlı yanıt oranı değerlendirildiğinde, Qwen2-72B-Instruct GPT-4’e benzer güvenlik düzeyi gösterirken Mistral-8x22B’den belirgin biçimde daha iyi sonuç veriyor
Qwen2’nin kullanımı
- Tüm modeller Hugging Face ve ModelScope üzerinde yayımlandı ve serbestçe kullanılabiliyor
- Qwen2-72B ve talimat ayarlı modeller Qianwen License kullanırken, diğer modeller Apache 2.0 lisansını benimsiyor
- Qwen2’nin çeşitli üçüncü taraf framework’lerle nasıl kullanılacağı için ilgili framework dokümantasyonuna ve resmî belgelere bakılabilir
Qwen2’nin gelecek planları
- Veri ölçeklendirmesiyle birlikte model ölçeklendirmesini keşfetmek için daha büyük Qwen2 modelleri eğitilmesi planlanıyor
- Qwen2’nin, görsel ve işitsel bilgileri de anlayabilen çok modlu bir dil modeline genişletilmesi planlanıyor
- Bundan sonra da yeni modeller açık kaynak olarak yayımlanarak açık kaynak yapay zekanın gelişimi hızlandırılacak
1 yorum
Alibaba, açık kaynaklı yapay zeka modeli QWEN'i tanıttı
Qwen1.5-110B : Alibaba'nın açık kaynaklı LLM Qwen1.5 serisinin ilk 100B+ modeli