5 puan yazan xguru 2024-06-08 | 1 yorum | WhatsApp'ta paylaş
  • Qwen2, Qwen1.5’ten geliştirilen bir model ailesi olup 5 farklı boyutta ön eğitimli ve talimat ayarlı modeller içeriyor
    • Model boyutları: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B
  • İngilizce ve Çince dışında 27 dilde ek veriyle eğitim aldı
  • Çok sayıda benchmark değerlendirmesinde son teknoloji performans gösterirken, özellikle kodlama ve matematik alanlarında performans önemli ölçüde iyileşti
  • Qwen2-7B-Instruct ve Qwen2-72B-Instruct modelleri, YARN kullanarak en fazla 128K token’lık genişletilmiş bağlam uzunluğunu destekliyor

Qwen2 model bilgileri

  • Tüm model boyutlarında Group Query Attention (GQA) uygulanarak çıkarım hızı artırıldı ve bellek kullanımı azaltıldı
  • Küçük modellerde embedding tying tekniğinin kullanımı tercih ediliyor
  • Talimat ayarlı modellerin bağlam uzunluğu işleme yeteneği, Needle in a Haystack görevi üzerinden değerlendirildi
  • YARN teknolojisi sayesinde Qwen2-7B-Instruct ve Qwen2-72B-Instruct, 128K token’a kadar işleyebiliyor

Performans

  • İngilizce ve Çince dışında 27 dildeki veri kümeleriyle ön eğitim ve talimat ayarı yapılarak çok dilli yetenekler güçlendirildi
  • Code-switching işleme yeteneği büyük ölçüde iyileştirildi
  • Ön eğitim veri kümesi ve optimize edilmiş eğitim yöntemleri sayesinde Qwen2-72B, Llama-3-70B gibi güncel modellerden daha iyi performans gösteriyor
  • Sonraki eğitim süreciyle kodlama, matematik, akıl yürütme, talimat yerine getirme ve çok dilli anlama gibi yetenekler daha da geliştirildi; ayrıca insan değerleriyle hizalama da sağlandı
  • 16 benchmark’ta Qwen2-72B-Instruct, Qwen1.5-72B-Chat’i açık farkla geride bırakırken Llama-3-70B-Instruct ile kıyaslanabilir performans gösteriyor
  • Daha küçük Qwen2 modelleri de benzer veya daha büyük SOTA modelleri geride bırakıyor. Özellikle kodlama ve Çince ile ilgili metriklerde öne çıkıyor
Reklam

Öne çıkan noktalar

  • CodeQwen1.5’in kod eğitimi deneyimi ve verileri entegre edilerek Qwen2-72B-Instruct’in farklı programlama dillerindeki performansı önemli ölçüde artırıldı
  • Geniş kapsamlı ve yüksek kaliteli veri kümeleri kullanılarak Qwen2-72B-Instruct’in matematik problemi çözme yeteneği güçlendirildi
  • 128K uzunluğundaki bilgi çıkarımı görevlerini Qwen2-72B-Instruct kusursuz şekilde işleyebiliyor
  • 1 milyon token’lık belge işleme için verimli bir ajan çözümü de açık kaynak olarak yayımlandı
  • Çok dilli zararlı sorguların 4 türünde zararlı yanıt oranı değerlendirildiğinde, Qwen2-72B-Instruct GPT-4’e benzer güvenlik düzeyi gösterirken Mistral-8x22B’den belirgin biçimde daha iyi sonuç veriyor

Qwen2’nin kullanımı

  • Tüm modeller Hugging Face ve ModelScope üzerinde yayımlandı ve serbestçe kullanılabiliyor
  • Qwen2-72B ve talimat ayarlı modeller Qianwen License kullanırken, diğer modeller Apache 2.0 lisansını benimsiyor
  • Qwen2’nin çeşitli üçüncü taraf framework’lerle nasıl kullanılacağı için ilgili framework dokümantasyonuna ve resmî belgelere bakılabilir

Qwen2’nin gelecek planları

  • Veri ölçeklendirmesiyle birlikte model ölçeklendirmesini keşfetmek için daha büyük Qwen2 modelleri eğitilmesi planlanıyor
  • Qwen2’nin, görsel ve işitsel bilgileri de anlayabilen çok modlu bir dil modeline genişletilmesi planlanıyor
  • Bundan sonra da yeni modeller açık kaynak olarak yayımlanarak açık kaynak yapay zekanın gelişimi hızlandırılacak