Qwen1.5-110B: Alibaba'nın açık kaynaklı LLM Qwen1.5 serisinin ilk 100B+ modeli

xguru · 2024-04-28T09:30:03+09:00

Açık kaynak topluluğunda son dönemde 100 milyardan fazla parametreye sahip büyük modeller art arda yayınlanıyor ve kıyaslama değerlendirmelerinde ve chatbot alanında etkileyici performans gösteriyor Alibaba da Qwen1.5 serisinin ilk 100B+ modeli olan Qwen1.5-110B'yi tanıttı Temel model değerlendirmelerinde Meta-Llama3-70B ile boy ölçüşebilen bir performansa ulaştı ve MT-Bench ile AlpacaEval 2.0 dahil sohbet değerlendirmelerinde üstün performans sergiledi Qwen1.5-110B modelinin özellikleri Qwen1.5-110B, diğer Qwen1.5 modellerine benzer ve aynı Transformer decoder mimarisiyle inşa edildi Grouped Query Attention (GQA) ile yapılandırıldı ve bu sayede model sunumu için verimli 32K token bağlam uzunluğunu destekliyor ve İngilizce, Çince, Fransızca, İspanyolca, Almanca, Rusça, Türkçe, Japonca, Vietnamca, Arapça gibi birçok dili destekleyen çok dilli bir model Temel dil modeli değerlendirme sonuçları Temel dil modeli için bir dizi değerlendirme yapıldı ve yakın dönemin SOTA dil modelleri olan Meta-Llama3-70B ve Mixtral-8x22B ile karşılaştırıldı Sonuçlara göre yeni 110B model, temel yetenekler açısından en az Llama-3-70B modeli kadar rekabetçi Bu modelde ön eğitim ve sonrasında yapılan eğitim reçetesi keskin biçimde değiştirilmediği için, 72B'ye kıyasla performans artışının model boyutundaki büyümeden kaynaklandığı görülüyor Sohbet modeli değerlendirme sonuçları Sohbet modeli MT-Bench ve AlpacaEval 2.0 üzerinde test edildi Daha önce yayımlanan 72B modele kıyasla 110B, her iki kıyaslamada da belirgin biçimde daha üstün performans gösterdi Değerlendirmelerdeki tutarlı iyileşme, sonradan eğitim reçetesi büyük ölçüde değiştirilmese bile daha güçlü ve daha büyük bir temel dil modelinin daha iyi bir sohbet modeline dönüşebileceğini gösteriyor Qwen1.5-110B ile geliştirme Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl, LLaMA-Factory vb. ile kullanım yöntemlerini öğrenmek için Qwen1.5 blogunun okunması öneriliyor Sonuç Qwen1.5-110B, Qwen1.5 serisinin en büyük modeli ve seride 100 milyardan fazla parametreye sahip ilk model Yakın zamanda yayımlanan SOTA model Llama-3-70B ile rekabetçi performans gösteriyor ve 72B modelden belirgin biçimde daha iyi Bu durum, daha iyi performans için model boyutunu büyütmede hâlâ büyük bir potansiyel olduğunu gösteriyor Llama-3'ün yayımlanması, veriyi son derece büyük ölçeğe çıkarmanın önemini gösterse de gelecekteki duyurularda hem veriyi hem model boyutunu ölçekleyerek iki dünyanın da avantajlarını elde etmenin mümkün olduğuna inanılıyor

(qwenlm.github.io)

5 puan yazan xguru 2024-04-28 | 1 yorum | WhatsApp'ta paylaş

Açık kaynak topluluğunda son dönemde 100 milyardan fazla parametreye sahip büyük modeller art arda yayınlanıyor ve kıyaslama değerlendirmelerinde ve chatbot alanında etkileyici performans gösteriyor
Alibaba da Qwen1.5 serisinin ilk 100B+ modeli olan Qwen1.5-110B'yi tanıttı
Temel model değerlendirmelerinde Meta-Llama3-70B ile boy ölçüşebilen bir performansa ulaştı ve MT-Bench ile AlpacaEval 2.0 dahil sohbet değerlendirmelerinde üstün performans sergiledi

Qwen1.5-110B modelinin özellikleri

Qwen1.5-110B, diğer Qwen1.5 modellerine benzer ve aynı Transformer decoder mimarisiyle inşa edildi
Grouped Query Attention (GQA) ile yapılandırıldı ve bu sayede model sunumu için verimli
32K token bağlam uzunluğunu destekliyor ve İngilizce, Çince, Fransızca, İspanyolca, Almanca, Rusça, Türkçe, Japonca, Vietnamca, Arapça gibi birçok dili destekleyen çok dilli bir model

Temel dil modeli değerlendirme sonuçları

Temel dil modeli için bir dizi değerlendirme yapıldı ve yakın dönemin SOTA dil modelleri olan Meta-Llama3-70B ve Mixtral-8x22B ile karşılaştırıldı
Sonuçlara göre yeni 110B model, temel yetenekler açısından en az Llama-3-70B modeli kadar rekabetçi
Bu modelde ön eğitim ve sonrasında yapılan eğitim reçetesi keskin biçimde değiştirilmediği için, 72B'ye kıyasla performans artışının model boyutundaki büyümeden kaynaklandığı görülüyor

Sohbet modeli değerlendirme sonuçları

Sohbet modeli MT-Bench ve AlpacaEval 2.0 üzerinde test edildi
Daha önce yayımlanan 72B modele kıyasla 110B, her iki kıyaslamada da belirgin biçimde daha üstün performans gösterdi
Değerlendirmelerdeki tutarlı iyileşme, sonradan eğitim reçetesi büyük ölçüde değiştirilmese bile daha güçlü ve daha büyük bir temel dil modelinin daha iyi bir sohbet modeline dönüşebileceğini gösteriyor

Qwen1.5-110B ile geliştirme

Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl, LLaMA-Factory vb. ile kullanım yöntemlerini öğrenmek için Qwen1.5 blogunun okunması öneriliyor

Sonuç

Qwen1.5-110B, Qwen1.5 serisinin en büyük modeli ve seride 100 milyardan fazla parametreye sahip ilk model
Yakın zamanda yayımlanan SOTA model Llama-3-70B ile rekabetçi performans gösteriyor ve 72B modelden belirgin biçimde daha iyi
Bu durum, daha iyi performans için model boyutunu büyütmede hâlâ büyük bir potansiyel olduğunu gösteriyor
Llama-3'ün yayımlanması, veriyi son derece büyük ölçeğe çıkarmanın önemini gösterse de gelecekteki duyurularda hem veriyi hem model boyutunu ölçekleyerek iki dünyanın da avantajlarını elde etmenin mümkün olduğuna inanılıyor

1 yorum

xguru 2024-04-28

Alibaba, açık kaynaklı yapay zeka modeli QWEN’i duyurdu