6 puan yazan GN⁺ 2024-01-30 | 2 yorum | WhatsApp'ta paylaş
  • RWKV-v5 mimarisi tabanlı 7.52B parametreli model
  • Dünyanın en çevre dostu 7B modeli; token başına maliyeti düşük
  • 100'den fazla dilde 1,1 trilyon token üzerinde eğitildi
  • Çok dilli benchmark'larda tüm 7B sınıfı modelleri geride bırakıyor
  • İngilizce değerlendirmelerde Falcon (1.5T), LLaMA2 (2T), Mistral (>2T?) seviyesine yakın performans gösteriyor
  • Yalnızca çok küçük ölçekte instruction tuning uygulanmış bir foundation model; farklı kullanım senaryoları için fine-tuning gerekli
  • Attention gerektirmeyen bir transformer
  • Apache 2.0 lisansı ile kişisel ya da ticari kullanımda sınırsız biçimde kullanılabilir

Çok dilli performans ayrıntıları

  • Çok dilli performans; xLAMBDA, xStoryCloze, xWinograd, xCopa dahil toplam 23 dil üzerinde değerlendirildi.
  • Bu benchmark'lar her dildeki sağduyuya dayalı akıl yürütmeyi ele alıyor.
  • RWKV v4'ten v5 mimarisine geçişle birlikte çok dilli performans belirgin biçimde arttı.
  • Çok dilli benchmark'ların yetersizliği nedeniyle, eğitilen 100'den fazla dilin geri kalan 75+ dili için modelin dil performansını doğrudan değerlendirmek zor.

İngilizce performans ayrıntıları

  • İngilizce performansı, sağduyuya dayalı akıl yürütme ve dünya bilgisini kapsayan 12 ayrı benchmark üzerinden ölçüldü.
  • RWKV v4'ten v5 mimarisine geçişle birlikte İngilizce performans da belirgin biçimde arttı.
  • v5 modeli, verilen token eğitim hacmi için beklenen transformer performans seviyesine ulaşıyor.
  • Ek 1 trilyon token eğitimiyle LLaMA2 seviyesine ulaşması ve Mistral seviyesine yaklaşması bekleniyor.

İyi veri seti + ölçeklenebilir mimari: herkesin ihtiyacı olan şey bu mu?

  • 300 milyar token noktasındaki checkpoint, pythia-6.9b ile benzer performans gösteriyor.
  • RWKV-v4 mimarisindeki önceki deneylerle tutarlı biçimde, RWKV gibi lineer transformer'lar aynı sayıda token ile eğitildiğinde transformer'larla benzer performans seviyesine ölçekleniyor.
  • Model değerlendirme performansında tam olarak hangi mimarinin kullanıldığından çok verinin daha önemli olup olmadığı sorusu tekrar tekrar gündeme geliyor.
  • RWKV tabanlı mimari ile transformer modellerin CUDA hesaplama maliyetini karşılaştırırken, lineer ile ikinci dereceden ölçeklenme farkı önem taşıyor.

Herkes için kapsayıcı yapay zeka inşa etmek - sadece İngilizce değil

  • RWKV'nin çok dilli yaklaşımına yönelik yaygın geri bildirim, bunun İngilizce değerlendirme puanlarını etkilediği ve lineer transformer'ların ilerleyişini yavaşlattığı yönünde.
  • Ancak RWKV ekibi bu yaklaşımı değiştirmeyi planlamıyor; yalnızca İngilizce konuşan bir dünya için değil, tüm dünya için yapay zeka inşa etmek istiyor.
  • 2023 itibarıyla dünya nüfusunun yalnızca %17'si İngilizce konuşuyor.
  • İlk 25 dili ve daha fazlasını destekleyerek yaklaşık 4 milyar kişiye, yani dünya nüfusunun %50'sine ulaşmak mümkün.
  • RWKV ekibi çok dilli veri setini genişletmek, desteklenen dil sayısını artırmak ve nihayetinde dünya nüfusunun %100'ünü kapsamak istiyor.

Gelecek planları

  • Bu sürüm, şu ana kadarki en güçlü lineer transformer'ı temsil ediyor.
  • LLaMA2 ve Mistral'ı henüz geçemese de, RWKV-v5 model mimarisinin benzer token sayılarıyla transformer performansına yakın biçimde ölçeklenebildiğini gösteriyor.
  • 2024 Şubat ayında RWKV v5 için güncellenmiş bir makale yayımlamayı; Mart ayında ise v5 Eagle 2T modeli tabanlı bir MoE modelini ve RWKV-v6 "Finch" 1.5B, 3B world model'lerini yayımlamayı planlıyorlar.

Teşekkürler

  • Bu foundation model'i eğitmek için hesaplama gücünün büyük kısmını sağlayan StabilityAI'ye teşekkür ediliyor.
  • Makalenin yazım sürecinde destek veren EleutherAI'ye teşekkür ediliyor.
  • RWKV projesini destekleyen ve barındıran Linux Foundation AI & Data grubuna teşekkür ediliyor.

GN⁺ görüşü:

  • Eagle 7B, çok sayıda dili destekleyen ve maliyet açısından verimli şekilde yüksek performans sunan bir lineer transformer modelidir.
  • Bu model, yapay zekaya erişilebilirliği artırmaya ve çevresel etkiyi azaltmaya katkı sağlayabilir.
  • RWKV ekibinin, yapay zekanın dünyadaki herkesi desteklemesi ve tüm dilleri kapsaması yönünde net bir vizyonu bulunuyor.

2 yorum

 
cosine20 2024-01-31

Dün gece demoyu kısa süre denedim; oldukça hızlıydı ve iyi sonuçlar verdi. Korece ve Japoncayı da doğal şekilde algılayıp yanıt verdi.

 
GN⁺ 2024-01-30
Hacker News görüşleri
  • Alternatif LLM (büyük dil modeli) mimarilerinde ilerleme kaydediliyor olması ilgi çekici, ancak makalenin yalnızca model kalitesini ele alması hayal kırıklığı yaratıyor

    • Makale aniden bittiği için yeni mimariyi benimsemek için yeterli motivasyon sunmuyor
    • Performans ve bağlam boyutu hakkında bir tartışmaya ihtiyaç var
    • Makalede bağlama hiç değinilmemesi hayal kırıklığı yaratıyor
    • RWKV-4 grafiği yeniden kullanılmış, ancak grafiğin ne gösterdiği açık değil
  • Model mimarisinde Transformer, Mamba, SSM, RWKV gibi yapıların hangisi olduğu o kadar önemli değil; eğitim veri setinin etkisi daha önemli

    • Dil verisi insan deneyiminin bir deposu ve bunun üzerinden AI'ın çeşitli yetenekler kazanması, zekânın yalnızca beyinle sınırlı olmadığını düşündürüyor
  • RWKV-v5 Eagle 7B, Apache 2.0 lisansıyla yayımlandı; bu da kişisel ya da ticari olarak kısıtlama olmadan kullanılabileceği anlamına geliyor

    • Ekibin test ve benimseme için doğru teşvikleri oluşturmuş olması olumlu
  • Şu anda odak ağırlıklı olarak decoder-only bir sonraki token tahmini modellerinde

    • BERT ve T5'in encoder'ları, arama veya sınıflandırma görevleri için embedding üretmede hâlâ faydalı
    • Embedding kullanım senaryoları için daha iyi ön eğitim mimarileri üzerine daha fazla araştırma gerekli
  • RWKV modelinin genel Transformer modelleriyle nasıl karşılaştırıldığına ve benchmark'ların nasıl yorumlanması gerektiğine dair açıklama talebi

    • Mistral 7B/mistral-tiny ile benzer performans gösteriyor gibi görünüyor
  • Gereken RAM miktarı ve yalnızca CPU kullanıldığında token işleme hızıyla ilgili bilgiler net değil

  • Soruları proje üyelerinden birinin Reddit'te yanıtladığı, bu nedenle oraya bakılmasının önerildiği belirtiliyor

    • İlgili Reddit kullanıcı bağlantısı verilmiş
  • RWKV modelini denemek isteyip de beklemek istemeyenler için rwkv-demo-api.recursal.ai öneriliyor

  • Mart 2024'e dayalı MoE modeli v5 Eagle 2T için heyecan ifade ediliyor

    • Performans ile çevre/token maliyeti arasında bir denge bekleniyor
    • İskandinav dillerindeki iyileşmeler de umut verici, ancak sonucu görmek gerekecek
    • Eğitim verisinin değeri ile en iyi eğitimi sağlamak için içerik yapısı ve dengesine dair farkındalığın gerçek devrimi getireceği düşünülüyor
  • RWKV-4 deneylerinde çıkarım hızının yüksek, ancak tokenization hızının çok yavaş olduğu tecrübe edilmiş

    • RWKV-5 için daha somut yönergelere ihtiyaç var