Eagle 7B - Transformer'ı geride bırakan model

(blog.rwkv.com)

6 puan yazan GN⁺ 2024-01-30 | 2 yorum | WhatsApp'ta paylaş

RWKV-v5 mimarisi tabanlı 7.52B parametreli model
Dünyanın en çevre dostu 7B modeli; token başına maliyeti düşük
100'den fazla dilde 1,1 trilyon token üzerinde eğitildi
Çok dilli benchmark'larda tüm 7B sınıfı modelleri geride bırakıyor
İngilizce değerlendirmelerde Falcon (1.5T), LLaMA2 (2T), Mistral (>2T?) seviyesine yakın performans gösteriyor
Yalnızca çok küçük ölçekte instruction tuning uygulanmış bir foundation model; farklı kullanım senaryoları için fine-tuning gerekli
Attention gerektirmeyen bir transformer
Apache 2.0 lisansı ile kişisel ya da ticari kullanımda sınırsız biçimde kullanılabilir

Çok dilli performans ayrıntıları

Çok dilli performans; xLAMBDA, xStoryCloze, xWinograd, xCopa dahil toplam 23 dil üzerinde değerlendirildi.
Bu benchmark'lar her dildeki sağduyuya dayalı akıl yürütmeyi ele alıyor.
RWKV v4'ten v5 mimarisine geçişle birlikte çok dilli performans belirgin biçimde arttı.
Çok dilli benchmark'ların yetersizliği nedeniyle, eğitilen 100'den fazla dilin geri kalan 75+ dili için modelin dil performansını doğrudan değerlendirmek zor.

İngilizce performans ayrıntıları

İngilizce performansı, sağduyuya dayalı akıl yürütme ve dünya bilgisini kapsayan 12 ayrı benchmark üzerinden ölçüldü.
RWKV v4'ten v5 mimarisine geçişle birlikte İngilizce performans da belirgin biçimde arttı.
v5 modeli, verilen token eğitim hacmi için beklenen transformer performans seviyesine ulaşıyor.
Ek 1 trilyon token eğitimiyle LLaMA2 seviyesine ulaşması ve Mistral seviyesine yaklaşması bekleniyor.

İyi veri seti + ölçeklenebilir mimari: herkesin ihtiyacı olan şey bu mu?

300 milyar token noktasındaki checkpoint, pythia-6.9b ile benzer performans gösteriyor.
RWKV-v4 mimarisindeki önceki deneylerle tutarlı biçimde, RWKV gibi lineer transformer'lar aynı sayıda token ile eğitildiğinde transformer'larla benzer performans seviyesine ölçekleniyor.
Model değerlendirme performansında tam olarak hangi mimarinin kullanıldığından çok verinin daha önemli olup olmadığı sorusu tekrar tekrar gündeme geliyor.
RWKV tabanlı mimari ile transformer modellerin CUDA hesaplama maliyetini karşılaştırırken, lineer ile ikinci dereceden ölçeklenme farkı önem taşıyor.

Herkes için kapsayıcı yapay zeka inşa etmek - sadece İngilizce değil

RWKV'nin çok dilli yaklaşımına yönelik yaygın geri bildirim, bunun İngilizce değerlendirme puanlarını etkilediği ve lineer transformer'ların ilerleyişini yavaşlattığı yönünde.
Ancak RWKV ekibi bu yaklaşımı değiştirmeyi planlamıyor; yalnızca İngilizce konuşan bir dünya için değil, tüm dünya için yapay zeka inşa etmek istiyor.
2023 itibarıyla dünya nüfusunun yalnızca %17'si İngilizce konuşuyor.
İlk 25 dili ve daha fazlasını destekleyerek yaklaşık 4 milyar kişiye, yani dünya nüfusunun %50'sine ulaşmak mümkün.
RWKV ekibi çok dilli veri setini genişletmek, desteklenen dil sayısını artırmak ve nihayetinde dünya nüfusunun %100'ünü kapsamak istiyor.

Gelecek planları

Bu sürüm, şu ana kadarki en güçlü lineer transformer'ı temsil ediyor.
LLaMA2 ve Mistral'ı henüz geçemese de, RWKV-v5 model mimarisinin benzer token sayılarıyla transformer performansına yakın biçimde ölçeklenebildiğini gösteriyor.
2024 Şubat ayında RWKV v5 için güncellenmiş bir makale yayımlamayı; Mart ayında ise v5 Eagle 2T modeli tabanlı bir MoE modelini ve RWKV-v6 "Finch" 1.5B, 3B world model'lerini yayımlamayı planlıyorlar.

Teşekkürler

Bu foundation model'i eğitmek için hesaplama gücünün büyük kısmını sağlayan StabilityAI'ye teşekkür ediliyor.
Makalenin yazım sürecinde destek veren EleutherAI'ye teşekkür ediliyor.
RWKV projesini destekleyen ve barındıran Linux Foundation AI & Data grubuna teşekkür ediliyor.

GN⁺ görüşü:

Eagle 7B, çok sayıda dili destekleyen ve maliyet açısından verimli şekilde yüksek performans sunan bir lineer transformer modelidir.
Bu model, yapay zekaya erişilebilirliği artırmaya ve çevresel etkiyi azaltmaya katkı sağlayabilir.
RWKV ekibinin, yapay zekanın dünyadaki herkesi desteklemesi ve tüm dilleri kapsaması yönünde net bir vizyonu bulunuyor.

2 yorum

cosine20 2024-01-31

Dün gece demoyu kısa süre denedim; oldukça hızlıydı ve iyi sonuçlar verdi. Korece ve Japoncayı da doğal şekilde algılayıp yanıt verdi.

GN⁺ 2024-01-30

Hacker News görüşleri

Alternatif LLM (büyük dil modeli) mimarilerinde ilerleme kaydediliyor olması ilgi çekici, ancak makalenin yalnızca model kalitesini ele alması hayal kırıklığı yaratıyor
- Makale aniden bittiği için yeni mimariyi benimsemek için yeterli motivasyon sunmuyor
- Performans ve bağlam boyutu hakkında bir tartışmaya ihtiyaç var
- Makalede bağlama hiç değinilmemesi hayal kırıklığı yaratıyor
- RWKV-4 grafiği yeniden kullanılmış, ancak grafiğin ne gösterdiği açık değil
Model mimarisinde Transformer, Mamba, SSM, RWKV gibi yapıların hangisi olduğu o kadar önemli değil; eğitim veri setinin etkisi daha önemli
- Dil verisi insan deneyiminin bir deposu ve bunun üzerinden AI'ın çeşitli yetenekler kazanması, zekânın yalnızca beyinle sınırlı olmadığını düşündürüyor
RWKV-v5 Eagle 7B, Apache 2.0 lisansıyla yayımlandı; bu da kişisel ya da ticari olarak kısıtlama olmadan kullanılabileceği anlamına geliyor
- Ekibin test ve benimseme için doğru teşvikleri oluşturmuş olması olumlu
Şu anda odak ağırlıklı olarak decoder-only bir sonraki token tahmini modellerinde
- BERT ve T5'in encoder'ları, arama veya sınıflandırma görevleri için embedding üretmede hâlâ faydalı
- Embedding kullanım senaryoları için daha iyi ön eğitim mimarileri üzerine daha fazla araştırma gerekli
RWKV modelinin genel Transformer modelleriyle nasıl karşılaştırıldığına ve benchmark'ların nasıl yorumlanması gerektiğine dair açıklama talebi
- Mistral 7B/mistral-tiny ile benzer performans gösteriyor gibi görünüyor
Gereken RAM miktarı ve yalnızca CPU kullanıldığında token işleme hızıyla ilgili bilgiler net değil
Soruları proje üyelerinden birinin Reddit'te yanıtladığı, bu nedenle oraya bakılmasının önerildiği belirtiliyor
- İlgili Reddit kullanıcı bağlantısı verilmiş
RWKV modelini denemek isteyip de beklemek istemeyenler için rwkv-demo-api.recursal.ai öneriliyor
Mart 2024'e dayalı MoE modeli v5 Eagle 2T için heyecan ifade ediliyor
- Performans ile çevre/token maliyeti arasında bir denge bekleniyor
- İskandinav dillerindeki iyileşmeler de umut verici, ancak sonucu görmek gerekecek
- Eğitim verisinin değeri ile en iyi eğitimi sağlamak için içerik yapısı ve dengesine dair farkındalığın gerçek devrimi getireceği düşünülüyor
RWKV-4 deneylerinde çıkarım hızının yüksek, ancak tokenization hızının çok yavaş olduğu tecrübe edilmiş
- RWKV-5 için daha somut yönergelere ihtiyaç var