Alibaba, Qwen 2 modelini duyurdu

xguru · 2024-06-08T10:02:01+09:00

Qwen2, Qwen1.5’ten geliştirilen bir model ailesi olup 5 farklı boyutta ön eğitimli ve talimat ayarlı modeller içeriyor Model boyutları: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B İngilizce ve Çince dışında 27 dilde ek veriyle eğitim aldı Çok sayıda benchmark değerlendirmesinde son teknoloji performans gösterirken, özellikle kodlama ve matematik alanlarında performans önemli ölçüde iyileşti Qwen2-7B-Instruct ve Qwen2-72B-Instruct modelleri, YARN kullanarak en fazla 128K token’lık genişletilmiş bağlam uzunluğunu destekliyor Qwen2 model bilgileri Tüm model boyutlarında Group Query Attention (GQA) uygulanarak çıkarım hızı artırıldı ve bellek kullanımı azaltıldı Küçük modellerde embedding tying tekniğinin kullanımı tercih ediliyor Talimat ayarlı modellerin bağlam uzunluğu işleme yeteneği, Needle in a Haystack görevi üzerinden değerlendirildi YARN teknolojisi sayesinde Qwen2-7B-Instruct ve Qwen2-72B-Instruct, 128K token’a kadar işleyebiliyor Performans İngilizce ve Çince dışında 27 dildeki veri kümeleriyle ön eğitim ve talimat ayarı yapılarak çok dilli yetenekler güçlendirildi Code-switching işleme yeteneği büyük ölçüde iyileştirildi Ön eğitim veri kümesi ve optimize edilmiş eğitim yöntemleri sayesinde Qwen2-72B, Llama-3-70B gibi güncel modellerden daha iyi performans gösteriyor Sonraki eğitim süreciyle kodlama, matematik, akıl yürütme, talimat yerine getirme ve çok dilli anlama gibi yetenekler daha da geliştirildi; ayrıca insan değerleriyle hizalama da sağlandı 16 benchmark’ta Qwen2-72B-Instruct, Qwen1.5-72B-Chat’i açık farkla geride bırakırken Llama-3-70B-Instruct ile kıyaslanabilir performans gösteriyor Daha küçük Qwen2 modelleri de benzer veya daha büyük SOTA modelleri geride bırakıyor. Özellikle kodlama ve Çince ile ilgili metriklerde öne çıkıyor Öne çıkan noktalar CodeQwen1.5’in kod eğitimi deneyimi ve verileri entegre edilerek Qwen2-72B-Instruct’in farklı programlama dillerindeki performansı önemli ölçüde artırıldı Geniş kapsamlı ve yüksek kaliteli veri kümeleri kullanılarak Qwen2-72B-Instruct’in matematik problemi çözme yeteneği güçlendirildi 128K uzunluğundaki bilgi çıkarımı görevlerini Qwen2-72B-Instruct kusursuz şekilde işleyebiliyor 1 milyon token’lık belge işleme için verimli bir ajan çözümü de açık kaynak olarak yayımlandı Çok dilli zararlı sorguların 4 türünde zararlı yanıt oranı değerlendirildiğinde, Qwen2-72B-Instruct GPT-4’e benzer güvenlik düzeyi gösterirken Mistral-8x22B’den belirgin biçimde daha iyi sonuç veriyor Qwen2’nin kullanımı Tüm modeller Hugging Face ve ModelScope üzerinde yayımlandı ve serbestçe kullanılabiliyor Qwen2-72B ve talimat ayarlı modeller Qianwen License kullanırken, diğer modeller Apache 2.0 lisansını benimsiyor Qwen2’nin çeşitli üçüncü taraf framework’lerle nasıl kullanılacağı için ilgili framework dokümantasyonuna ve resmî belgelere bakılabilir Qwen2’nin gelecek planları Veri ölçeklendirmesiyle birlikte model ölçeklendirmesini keşfetmek için daha büyük Qwen2 modelleri eğitilmesi planlanıyor Qwen2’nin, görsel ve işitsel bilgileri de anlayabilen çok modlu bir dil modeline genişletilmesi planlanıyor Bundan sonra da yeni modeller açık kaynak olarak yayımlanarak açık kaynak yapay zekanın gelişimi hızlandırılacak

(qwenlm.github.io)

5 puan yazan xguru 2024-06-08 | 1 yorum | WhatsApp'ta paylaş

Qwen2, Qwen1.5’ten geliştirilen bir model ailesi olup 5 farklı boyutta ön eğitimli ve talimat ayarlı modeller içeriyor
- Model boyutları: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
İngilizce ve Çince dışında 27 dilde ek veriyle eğitim aldı
Çok sayıda benchmark değerlendirmesinde son teknoloji performans gösterirken, özellikle kodlama ve matematik alanlarında performans önemli ölçüde iyileşti
Qwen2-7B-Instruct ve Qwen2-72B-Instruct modelleri, YARN kullanarak en fazla 128K token’lık genişletilmiş bağlam uzunluğunu destekliyor

Qwen2 model bilgileri

Tüm model boyutlarında Group Query Attention (GQA) uygulanarak çıkarım hızı artırıldı ve bellek kullanımı azaltıldı
Küçük modellerde embedding tying tekniğinin kullanımı tercih ediliyor
Talimat ayarlı modellerin bağlam uzunluğu işleme yeteneği, Needle in a Haystack görevi üzerinden değerlendirildi
YARN teknolojisi sayesinde Qwen2-7B-Instruct ve Qwen2-72B-Instruct, 128K token’a kadar işleyebiliyor

Performans

İngilizce ve Çince dışında 27 dildeki veri kümeleriyle ön eğitim ve talimat ayarı yapılarak çok dilli yetenekler güçlendirildi
Code-switching işleme yeteneği büyük ölçüde iyileştirildi
Ön eğitim veri kümesi ve optimize edilmiş eğitim yöntemleri sayesinde Qwen2-72B, Llama-3-70B gibi güncel modellerden daha iyi performans gösteriyor
Sonraki eğitim süreciyle kodlama, matematik, akıl yürütme, talimat yerine getirme ve çok dilli anlama gibi yetenekler daha da geliştirildi; ayrıca insan değerleriyle hizalama da sağlandı
16 benchmark’ta Qwen2-72B-Instruct, Qwen1.5-72B-Chat’i açık farkla geride bırakırken Llama-3-70B-Instruct ile kıyaslanabilir performans gösteriyor
Daha küçük Qwen2 modelleri de benzer veya daha büyük SOTA modelleri geride bırakıyor. Özellikle kodlama ve Çince ile ilgili metriklerde öne çıkıyor

Öne çıkan noktalar

CodeQwen1.5’in kod eğitimi deneyimi ve verileri entegre edilerek Qwen2-72B-Instruct’in farklı programlama dillerindeki performansı önemli ölçüde artırıldı
Geniş kapsamlı ve yüksek kaliteli veri kümeleri kullanılarak Qwen2-72B-Instruct’in matematik problemi çözme yeteneği güçlendirildi
128K uzunluğundaki bilgi çıkarımı görevlerini Qwen2-72B-Instruct kusursuz şekilde işleyebiliyor
1 milyon token’lık belge işleme için verimli bir ajan çözümü de açık kaynak olarak yayımlandı
Çok dilli zararlı sorguların 4 türünde zararlı yanıt oranı değerlendirildiğinde, Qwen2-72B-Instruct GPT-4’e benzer güvenlik düzeyi gösterirken Mistral-8x22B’den belirgin biçimde daha iyi sonuç veriyor

Qwen2’nin kullanımı

Tüm modeller Hugging Face ve ModelScope üzerinde yayımlandı ve serbestçe kullanılabiliyor
Qwen2-72B ve talimat ayarlı modeller Qianwen License kullanırken, diğer modeller Apache 2.0 lisansını benimsiyor
Qwen2’nin çeşitli üçüncü taraf framework’lerle nasıl kullanılacağı için ilgili framework dokümantasyonuna ve resmî belgelere bakılabilir

Qwen2’nin gelecek planları

Veri ölçeklendirmesiyle birlikte model ölçeklendirmesini keşfetmek için daha büyük Qwen2 modelleri eğitilmesi planlanıyor
Qwen2’nin, görsel ve işitsel bilgileri de anlayabilen çok modlu bir dil modeline genişletilmesi planlanıyor
Bundan sonra da yeni modeller açık kaynak olarak yayımlanarak açık kaynak yapay zekanın gelişimi hızlandırılacak

1 yorum

xguru 2024-06-08

Alibaba, açık kaynaklı yapay zeka modeli QWEN'i tanıttı
Qwen1.5-110B : Alibaba'nın açık kaynaklı LLM Qwen1.5 serisinin ilk 100B+ modeli