- RWKV-v5 mimarisi tabanlı 7.52B parametreli model
- Dünyanın en çevre dostu 7B modeli; token başına maliyeti düşük
- 100'den fazla dilde 1,1 trilyon token üzerinde eğitildi
- Çok dilli benchmark'larda tüm 7B sınıfı modelleri geride bırakıyor
- İngilizce değerlendirmelerde Falcon (1.5T), LLaMA2 (2T), Mistral (>2T?) seviyesine yakın performans gösteriyor
- Yalnızca çok küçük ölçekte instruction tuning uygulanmış bir foundation model; farklı kullanım senaryoları için fine-tuning gerekli
- Attention gerektirmeyen bir transformer
- Apache 2.0 lisansı ile kişisel ya da ticari kullanımda sınırsız biçimde kullanılabilir
Çok dilli performans ayrıntıları
- Çok dilli performans; xLAMBDA, xStoryCloze, xWinograd, xCopa dahil toplam 23 dil üzerinde değerlendirildi.
- Bu benchmark'lar her dildeki sağduyuya dayalı akıl yürütmeyi ele alıyor.
- RWKV v4'ten v5 mimarisine geçişle birlikte çok dilli performans belirgin biçimde arttı.
- Çok dilli benchmark'ların yetersizliği nedeniyle, eğitilen 100'den fazla dilin geri kalan 75+ dili için modelin dil performansını doğrudan değerlendirmek zor.
İngilizce performans ayrıntıları
- İngilizce performansı, sağduyuya dayalı akıl yürütme ve dünya bilgisini kapsayan 12 ayrı benchmark üzerinden ölçüldü.
- RWKV v4'ten v5 mimarisine geçişle birlikte İngilizce performans da belirgin biçimde arttı.
- v5 modeli, verilen token eğitim hacmi için beklenen transformer performans seviyesine ulaşıyor.
- Ek 1 trilyon token eğitimiyle LLaMA2 seviyesine ulaşması ve Mistral seviyesine yaklaşması bekleniyor.
İyi veri seti + ölçeklenebilir mimari: herkesin ihtiyacı olan şey bu mu?
- 300 milyar token noktasındaki checkpoint, pythia-6.9b ile benzer performans gösteriyor.
- RWKV-v4 mimarisindeki önceki deneylerle tutarlı biçimde, RWKV gibi lineer transformer'lar aynı sayıda token ile eğitildiğinde transformer'larla benzer performans seviyesine ölçekleniyor.
- Model değerlendirme performansında tam olarak hangi mimarinin kullanıldığından çok verinin daha önemli olup olmadığı sorusu tekrar tekrar gündeme geliyor.
- RWKV tabanlı mimari ile transformer modellerin CUDA hesaplama maliyetini karşılaştırırken, lineer ile ikinci dereceden ölçeklenme farkı önem taşıyor.
Herkes için kapsayıcı yapay zeka inşa etmek - sadece İngilizce değil
- RWKV'nin çok dilli yaklaşımına yönelik yaygın geri bildirim, bunun İngilizce değerlendirme puanlarını etkilediği ve lineer transformer'ların ilerleyişini yavaşlattığı yönünde.
- Ancak RWKV ekibi bu yaklaşımı değiştirmeyi planlamıyor; yalnızca İngilizce konuşan bir dünya için değil, tüm dünya için yapay zeka inşa etmek istiyor.
- 2023 itibarıyla dünya nüfusunun yalnızca %17'si İngilizce konuşuyor.
- İlk 25 dili ve daha fazlasını destekleyerek yaklaşık 4 milyar kişiye, yani dünya nüfusunun %50'sine ulaşmak mümkün.
- RWKV ekibi çok dilli veri setini genişletmek, desteklenen dil sayısını artırmak ve nihayetinde dünya nüfusunun %100'ünü kapsamak istiyor.
Gelecek planları
- Bu sürüm, şu ana kadarki en güçlü lineer transformer'ı temsil ediyor.
- LLaMA2 ve Mistral'ı henüz geçemese de, RWKV-v5 model mimarisinin benzer token sayılarıyla transformer performansına yakın biçimde ölçeklenebildiğini gösteriyor.
- 2024 Şubat ayında RWKV v5 için güncellenmiş bir makale yayımlamayı; Mart ayında ise v5 Eagle 2T modeli tabanlı bir MoE modelini ve RWKV-v6 "Finch" 1.5B, 3B world model'lerini yayımlamayı planlıyorlar.
Teşekkürler
- Bu foundation model'i eğitmek için hesaplama gücünün büyük kısmını sağlayan StabilityAI'ye teşekkür ediliyor.
- Makalenin yazım sürecinde destek veren EleutherAI'ye teşekkür ediliyor.
- RWKV projesini destekleyen ve barındıran Linux Foundation AI & Data grubuna teşekkür ediliyor.
GN⁺ görüşü:
- Eagle 7B, çok sayıda dili destekleyen ve maliyet açısından verimli şekilde yüksek performans sunan bir lineer transformer modelidir.
- Bu model, yapay zekaya erişilebilirliği artırmaya ve çevresel etkiyi azaltmaya katkı sağlayabilir.
- RWKV ekibinin, yapay zekanın dünyadaki herkesi desteklemesi ve tüm dilleri kapsaması yönünde net bir vizyonu bulunuyor.
2 yorum
Dün gece demoyu kısa süre denedim; oldukça hızlıydı ve iyi sonuçlar verdi. Korece ve Japoncayı da doğal şekilde algılayıp yanıt verdi.
Hacker News görüşleri
Alternatif LLM (büyük dil modeli) mimarilerinde ilerleme kaydediliyor olması ilgi çekici, ancak makalenin yalnızca model kalitesini ele alması hayal kırıklığı yaratıyor
Model mimarisinde Transformer, Mamba, SSM, RWKV gibi yapıların hangisi olduğu o kadar önemli değil; eğitim veri setinin etkisi daha önemli
RWKV-v5 Eagle 7B, Apache 2.0 lisansıyla yayımlandı; bu da kişisel ya da ticari olarak kısıtlama olmadan kullanılabileceği anlamına geliyor
Şu anda odak ağırlıklı olarak decoder-only bir sonraki token tahmini modellerinde
RWKV modelinin genel Transformer modelleriyle nasıl karşılaştırıldığına ve benchmark'ların nasıl yorumlanması gerektiğine dair açıklama talebi
Gereken RAM miktarı ve yalnızca CPU kullanıldığında token işleme hızıyla ilgili bilgiler net değil
Soruları proje üyelerinden birinin Reddit'te yanıtladığı, bu nedenle oraya bakılmasının önerildiği belirtiliyor
RWKV modelini denemek isteyip de beklemek istemeyenler için
rwkv-demo-api.recursal.aiöneriliyorMart 2024'e dayalı MoE modeli v5 Eagle 2T için heyecan ifade ediliyor
RWKV-4 deneylerinde çıkarım hızının yüksek, ancak tokenization hızının çok yavaş olduğu tecrübe edilmiş