- Açık kaynak topluluğunda son dönemde 100 milyardan fazla parametreye sahip büyük modeller art arda yayınlanıyor ve kıyaslama değerlendirmelerinde ve chatbot alanında etkileyici performans gösteriyor
- Alibaba da Qwen1.5 serisinin ilk 100B+ modeli olan Qwen1.5-110B'yi tanıttı
- Temel model değerlendirmelerinde Meta-Llama3-70B ile boy ölçüşebilen bir performansa ulaştı ve MT-Bench ile AlpacaEval 2.0 dahil sohbet değerlendirmelerinde üstün performans sergiledi
Qwen1.5-110B modelinin özellikleri
- Qwen1.5-110B, diğer Qwen1.5 modellerine benzer ve aynı Transformer decoder mimarisiyle inşa edildi
- Grouped Query Attention (GQA) ile yapılandırıldı ve bu sayede model sunumu için verimli
- 32K token bağlam uzunluğunu destekliyor ve İngilizce, Çince, Fransızca, İspanyolca, Almanca, Rusça, Türkçe, Japonca, Vietnamca, Arapça gibi birçok dili destekleyen çok dilli bir model
Temel dil modeli değerlendirme sonuçları
- Temel dil modeli için bir dizi değerlendirme yapıldı ve yakın dönemin SOTA dil modelleri olan Meta-Llama3-70B ve Mixtral-8x22B ile karşılaştırıldı
- Sonuçlara göre yeni 110B model, temel yetenekler açısından en az Llama-3-70B modeli kadar rekabetçi
- Bu modelde ön eğitim ve sonrasında yapılan eğitim reçetesi keskin biçimde değiştirilmediği için, 72B'ye kıyasla performans artışının model boyutundaki büyümeden kaynaklandığı görülüyor
Sohbet modeli değerlendirme sonuçları
- Sohbet modeli MT-Bench ve AlpacaEval 2.0 üzerinde test edildi
- Daha önce yayımlanan 72B modele kıyasla 110B, her iki kıyaslamada da belirgin biçimde daha üstün performans gösterdi
- Değerlendirmelerdeki tutarlı iyileşme, sonradan eğitim reçetesi büyük ölçüde değiştirilmese bile daha güçlü ve daha büyük bir temel dil modelinin daha iyi bir sohbet modeline dönüşebileceğini gösteriyor
Qwen1.5-110B ile geliştirme
- Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl, LLaMA-Factory vb. ile kullanım yöntemlerini öğrenmek için Qwen1.5 blogunun okunması öneriliyor
Sonuç
- Qwen1.5-110B, Qwen1.5 serisinin en büyük modeli ve seride 100 milyardan fazla parametreye sahip ilk model
- Yakın zamanda yayımlanan SOTA model Llama-3-70B ile rekabetçi performans gösteriyor ve 72B modelden belirgin biçimde daha iyi
- Bu durum, daha iyi performans için model boyutunu büyütmede hâlâ büyük bir potansiyel olduğunu gösteriyor
- Llama-3'ün yayımlanması, veriyi son derece büyük ölçeğe çıkarmanın önemini gösterse de gelecekteki duyurularda hem veriyi hem model boyutunu ölçekleyerek iki dünyanın da avantajlarını elde etmenin mümkün olduğuna inanılıyor
1 yorum
Alibaba, açık kaynaklı yapay zeka modeli QWEN’i duyurdu