5 puan yazan xguru 2024-04-28 | 1 yorum | WhatsApp'ta paylaş
  • Açık kaynak topluluğunda son dönemde 100 milyardan fazla parametreye sahip büyük modeller art arda yayınlanıyor ve kıyaslama değerlendirmelerinde ve chatbot alanında etkileyici performans gösteriyor
  • Alibaba da Qwen1.5 serisinin ilk 100B+ modeli olan Qwen1.5-110B'yi tanıttı
  • Temel model değerlendirmelerinde Meta-Llama3-70B ile boy ölçüşebilen bir performansa ulaştı ve MT-Bench ile AlpacaEval 2.0 dahil sohbet değerlendirmelerinde üstün performans sergiledi

Qwen1.5-110B modelinin özellikleri

  • Qwen1.5-110B, diğer Qwen1.5 modellerine benzer ve aynı Transformer decoder mimarisiyle inşa edildi
  • Grouped Query Attention (GQA) ile yapılandırıldı ve bu sayede model sunumu için verimli
  • 32K token bağlam uzunluğunu destekliyor ve İngilizce, Çince, Fransızca, İspanyolca, Almanca, Rusça, Türkçe, Japonca, Vietnamca, Arapça gibi birçok dili destekleyen çok dilli bir model

Temel dil modeli değerlendirme sonuçları

  • Temel dil modeli için bir dizi değerlendirme yapıldı ve yakın dönemin SOTA dil modelleri olan Meta-Llama3-70B ve Mixtral-8x22B ile karşılaştırıldı
  • Sonuçlara göre yeni 110B model, temel yetenekler açısından en az Llama-3-70B modeli kadar rekabetçi
  • Bu modelde ön eğitim ve sonrasında yapılan eğitim reçetesi keskin biçimde değiştirilmediği için, 72B'ye kıyasla performans artışının model boyutundaki büyümeden kaynaklandığı görülüyor

Sohbet modeli değerlendirme sonuçları

  • Sohbet modeli MT-Bench ve AlpacaEval 2.0 üzerinde test edildi
  • Daha önce yayımlanan 72B modele kıyasla 110B, her iki kıyaslamada da belirgin biçimde daha üstün performans gösterdi
  • Değerlendirmelerdeki tutarlı iyileşme, sonradan eğitim reçetesi büyük ölçüde değiştirilmese bile daha güçlü ve daha büyük bir temel dil modelinin daha iyi bir sohbet modeline dönüşebileceğini gösteriyor

Qwen1.5-110B ile geliştirme

  • Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl, LLaMA-Factory vb. ile kullanım yöntemlerini öğrenmek için Qwen1.5 blogunun okunması öneriliyor

Sonuç

  • Qwen1.5-110B, Qwen1.5 serisinin en büyük modeli ve seride 100 milyardan fazla parametreye sahip ilk model
  • Yakın zamanda yayımlanan SOTA model Llama-3-70B ile rekabetçi performans gösteriyor ve 72B modelden belirgin biçimde daha iyi
  • Bu durum, daha iyi performans için model boyutunu büyütmede hâlâ büyük bir potansiyel olduğunu gösteriyor
  • Llama-3'ün yayımlanması, veriyi son derece büyük ölçeğe çıkarmanın önemini gösterse de gelecekteki duyurularda hem veriyi hem model boyutunu ölçekleyerek iki dünyanın da avantajlarını elde etmenin mümkün olduğuna inanılıyor