3 puan yazan GN⁺ 2024-04-22 | 1 yorum | WhatsApp'ta paylaş

Meta-Llama-3-8B-Instruct'in performansı

  • 8B bir model olmasına rağmen Wizard 22B ile neredeyse başa baş performans gösteriyor
  • Mevcut 70B modellerden bile daha iyi akıl yürütme yeteneği sergiliyor
  • Problem çözme ve kodlama becerileri gibi çeşitli alanlarda son derece güçlü performans gösteriyor

Meta-Llama-3-8B-Instruct'in özellikleri

  • Meta'nın çok büyük kaynaklar ayırarak uzun süre boyunca daha fazla veriyle eğitmesi sonucu ortaya çıkan bir model
  • Geliştiriciye ve donanıma göre performans farkı var. Çıkarım parametrelerine göre de sonuçlar değişiyor
  • FP16 sürümünde Q8_0 ile neredeyse aynı performansı gösteriyor. 8B ölçeginde bu seviye, kuantize bir model için en üst düzeylerden biri
  • Ürettiği içerikte zaman zaman sert ve esprili bir ton var. Cümlenin niyetini anlayıp uygun şekilde yanıt veriyor

GN⁺ görüşü

  • Tek bir sorguda güvenilir yanıtlar veriyor, ancak çok turlu sohbetlerde hâlâ sınırlamalar gösteriyor. Prompt şablonu optimizasyonu veya hiperparametre ayarıyla iyileştirme gerekiyor
  • 3B modele kıyasla 8B modelin performansı çok üstün olduğundan, 8B sınıfındaki modelleri çeşitli şekillerde fine-tune ederek özelleşmiş modeller üretmek umut verici görünüyor
  • Dil anlama ve akıl yürütme yeteneği güçlü olduğu için, bilgi yoğun alanlarda ve uzmanlık gerektiren sahalarda kullanım potansiyeli yüksek. Tıp, hukuk ve finans gibi alanlara özel modellere dönüştürülebilir
  • Meta'nın kaynakları ve teknik gücüyle 8B modeli bu seviyeye çıkarması kayda değer bir başarı. Gelecekte kişisel PC'lerde de yüksek performanslı yapay zeka modelleri çalıştırmak mümkün olabilir
  • 8B ile 70B arasında orta ölçekli bir modelin yayımlanmamış olması üzücü. Yaklaşık 32B boyutunda bir model gelirse performans ve verimlilik açısından en iyi dengeyi sunması beklenebilir

1 yorum

 
GN⁺ 2024-04-22
Hacker News yorumları
  • Llama 3 8B modeli, küçük bir modeli çok uzun süre eğitirseniz ne olacağı sorusuna yanıt veriyor. Bu, Mistral modeliyle başlayan bir eğilim ve Llama 3 ile daha da ileri taşınmış durumda. 8B parametreli bir model için 15T token kullanılması, şimdiye kadar görülmemiş bir seviye.
  • Küçük modellerde kalite artışı konusunda beklentiyi yükselten bir sürüm.
  • Llama 3 geveze görünüyor ve bazı yanlış varsayımlar yapıyor gibi. Örneğin gökyüzüne bakıp yukarı tükürürse bulutlara ulaşabileceğini hayal ediyor, ardından gerçekte bunun mümkün olmadığını kendi kendine düzeltiyor.
  • Bu sonuçların daha fazla eğitim ve bunun getirdiği yetenek artışından mı kaynaklandığı, yoksa bu tür bilmecelerin artık iyi bilindiği ve bu yüzden eğitim verisinde iyi temsil edildiği için mi ortaya çıktığı merak ediliyor.
  • Llama 3'ün öne çıkan yanı, eğitim verisinin yinelenen kısımlarını temizlemeye (kalite) ve eğitim verisini artırmaya (miktar) ek çaba harcaması; ayrıca eğitim materyali olarak 4 kat daha fazla kod kullanması (muhakeme için iyi).
  • Eğitim verisinin kürasyonu ve oluşturulmasına daha fazla emek vererek, bu kadar küçük modellerde bile muazzam performans artışları beklemek mümkün olabilir.
  • Llama 3 hâlâ Mixture of Experts (MoE) kullanmıyor. Bu da devasa MoE modelleri üretmenin israf olabileceğine işaret ediyor.
  • Meta, Nvidia yapay zeka çiplerine milyarlarca dolar harcıyor. Önümüzdeki 5 yıl içinde telefonlarda ve dizüstü bilgisayarlarda GPT-4 seviyesinde 8B modeller çalıştırmanın mümkün göründüğü düşünülüyor.
  • 8b-instruct modelinin mantık yürütme yeteneği çok etkileyici bulunuyor. Küçük modellerin geleceği umut verici.
  • Yerel LLM'lerin en büyük sorunu, insanların kullanım biçimine göre çok farklı izlenimler edinebilmesi.
  • Çoğu şirket modeli eğitmeye devam ediyor; eğitimin bittiği bir nokta yok. Bu da GPU harcamalarının neden bu kadar büyük olduğunu açıklıyor.
  • Bu modeli bugün hemen bir telefonda çalıştırmak için önce Termux üzerinde llama.cpp çalıştırmak ve ggml gibi model dosyalarını yüklemek gerekiyor.
  • 8B modelinin "1 kg demir ile 2 kg tüyden hangisi daha ağırdır?" sorusunu yanlış cevaplaması şaşırtıcı bulunuyor. GPT-3.5 de bunu yanlış yaptı, ancak 70B model ve GPT-4 doğru yanıtladı.