9 puan yazan xguru 2023-12-13 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Çok uzun (Ultra Long) bağlamı desteklemek için Transformer'ın yerine kullanılabilecek yeni bir mimari olan Hyena kullanılıyor
    • Hyena, sinyal işlemeden ilham alan bir dizi modeli tabanlı
  • Kısa/uzun bağlam değerlendirmelerinde Transformer'larla rekabet eden ilk alternatif model
  • OpenLLM liderlik tablosu görevlerinde Llama-2, Yi ve Mistral 7B ile benzer performans gösteriyor; uzun bağlam özetlemede ise üstün sonuçlar veriyor
  • StripedHyena, uzun dizi eğitimi, ince ayar ve üretimde daha hızlı ve daha bellek verimli
  • Yeni model aşılama (Model Grafting) tekniği kullanılarak optimize edildi; bu sayede eğitim sırasında model mimarisi değiştirilebiliyor
    • StripedHyena, transformer ve hyena mimari bileşenlerinin aşılanmasıyla elde edildi ve daha uzun bağlam verileriyle güçlendirilmiş RedPajama veri kümesinin bir karışımıyla eğitildi

Henüz yorum yok.

Henüz yorum yok.