- Çok uzun (Ultra Long) bağlamı desteklemek için Transformer'ın yerine kullanılabilecek yeni bir mimari olan Hyena kullanılıyor
- Hyena, sinyal işlemeden ilham alan bir dizi modeli tabanlı
- Kısa/uzun bağlam değerlendirmelerinde Transformer'larla rekabet eden ilk alternatif model
- OpenLLM liderlik tablosu görevlerinde Llama-2, Yi ve Mistral 7B ile benzer performans gösteriyor; uzun bağlam özetlemede ise üstün sonuçlar veriyor
- StripedHyena, uzun dizi eğitimi, ince ayar ve üretimde daha hızlı ve daha bellek verimli
- Yeni model aşılama (Model Grafting) tekniği kullanılarak optimize edildi; bu sayede eğitim sırasında model mimarisi değiştirilebiliyor
- StripedHyena, transformer ve hyena mimari bileşenlerinin aşılanmasıyla elde edildi ve daha uzun bağlam verileriyle güçlendirilmiş RedPajama veri kümesinin bir karışımıyla eğitildi
Henüz yorum yok.