Jamba - Prodüksiyon düzeyinde Mamba tabanlı yapay zeka modeli

xguru · 2024-03-30T09:46:02+09:00

AI21 Labs, Mamba mimarisini temel alan dünyanın ilk prodüksiyon düzeyindeki yapay zeka modeli Jamba'yı duyurdu Jamba, Mamba SSM (Structured State Space Model) ile geleneksel transformer mimarisinin güçlü yönlerini birleştirerek etkileyici performans ve verimlilik artışı sunuyor 256K token'lık geniş bir context window sunuyor. Tek bir 80GB GPU üzerinde 140K token'a kadar işleyebiliyor Jamba'nın hibrit mimarisi ve performansı Jamba, hibrit SSM-transformer mimarisi üzerinden, 52B parametrenin yalnızca 12B'sini çıkarım sırasında kullanan Mixture of Experts (MoE) katmanlarından yararlanıyor Meta'nın Llama 2'si gibi rakip modellere göre çok daha uzun context'leri işleyebiliyor ve yüksek throughput ile verimliliği koruyor Uzun context'lerde 3 kat daha yüksek throughput sunuyor ve benzer boyuttaki transformer tabanlı modellere göre daha verimli Blok ve katman yaklaşımını benimsiyor; her Jamba bloğu bir attention veya Mamba katmanı içeriyor, ardından çok katmanlı perceptron (MLP) geliyor Bu yapıda her 8 katmandan 1'i transformer katmanı olarak kullanılıyor Çeşitli benchmark'larda güçlü sonuçlar gösteriyor; aynı boyuttaki güncel modellerle karşılaştırıldığında geniş bir görev yelpazesinde ya onları geride bırakıyor ya da onlarla eşleşiyor Lisans Jamba, Apache 2.0 lisansı altında open-weight olarak yayımlandı ve Hugging Face üzerinde erişilebilir Şu anda Jamba, ticari kullanım için gerekli güvenlik önlemleri olmadan bir araştırma modeli olarak yayımlandı; ancak AI21 Labs önümüzdeki birkaç hafta içinde daha güvenli bir sürüm yayımlamayı planlıyor

(maginative.com)

11 puan yazan xguru 2024-03-30 | 1 yorum | WhatsApp'ta paylaş

AI21 Labs, Mamba mimarisini temel alan dünyanın ilk prodüksiyon düzeyindeki yapay zeka modeli Jamba'yı duyurdu
Jamba, Mamba SSM (Structured State Space Model) ile geleneksel transformer mimarisinin güçlü yönlerini birleştirerek etkileyici performans ve verimlilik artışı sunuyor
256K token'lık geniş bir context window sunuyor. Tek bir 80GB GPU üzerinde 140K token'a kadar işleyebiliyor

Jamba'nın hibrit mimarisi ve performansı

Jamba, hibrit SSM-transformer mimarisi üzerinden, 52B parametrenin yalnızca 12B'sini çıkarım sırasında kullanan Mixture of Experts (MoE) katmanlarından yararlanıyor
Meta'nın Llama 2'si gibi rakip modellere göre çok daha uzun context'leri işleyebiliyor ve yüksek throughput ile verimliliği koruyor
Uzun context'lerde 3 kat daha yüksek throughput sunuyor ve benzer boyuttaki transformer tabanlı modellere göre daha verimli
Blok ve katman yaklaşımını benimsiyor; her Jamba bloğu bir attention veya Mamba katmanı içeriyor, ardından çok katmanlı perceptron (MLP) geliyor
Bu yapıda her 8 katmandan 1'i transformer katmanı olarak kullanılıyor
Çeşitli benchmark'larda güçlü sonuçlar gösteriyor; aynı boyuttaki güncel modellerle karşılaştırıldığında geniş bir görev yelpazesinde ya onları geride bırakıyor ya da onlarla eşleşiyor

Lisans

Jamba, Apache 2.0 lisansı altında open-weight olarak yayımlandı ve Hugging Face üzerinde erişilebilir
Şu anda Jamba, ticari kullanım için gerekli güvenlik önlemleri olmadan bir araştırma modeli olarak yayımlandı; ancak AI21 Labs önümüzdeki birkaç hafta içinde daha güvenli bir sürüm yayımlamayı planlıyor

1 yorum

xguru 2024-03-30

Hacker News görüşleri

Mamba hakkında açıklama içeren yakın tarihli bir başlığa bağlantı paylaşıldı
- Mamba açıklama başlığı ve daha iyi başlık için iki bağlantı veriliyor.
Transformer ve state space model katmanları arasındaki trade-off’u merak edenlere Sasha Rush’ın videosu önerildi
- Sasha Rush’ın videosu, transformer ve state space model katmanları arasındaki farkları anlamaya yardımcı oluyor.
Linux’ta 1 veya 2 adet 4090 GPU ile çalıştırmaya çalışırken yaşanan sorun paylaşıldı
- Linux’ta 4090 GPU kullanarak checkpoint yükleme sırasında sorun yaşanıyor; VRAM yeterli görünüyor ama yine de başarısız oluyor. Denemeye yönelik ilgi ifade ediliyor.
Mamba kullanan tam üretim düzeyinde bir modelin ortaya çıkışı memnuniyetle karşılanırken, uzun context window benchmark’larında hem performans hem throughput açısından ilgi dile getirildi
- Mamba uzun context kullanıldığında throughput ciddi biçimde artıyor, ancak doğrulukta küçük bir kayıp olduğu izlenimi veriyor.
LLM’lerin (Large Language Models) verimsizliğine dikkat çekildi
- 80GB GPU belleği gerektiren LLM’lerin verimsizliğinden söz edilerek, algoritmik iyileştirme için hâlâ çok alan olduğu umudu paylaşılıyor.
Self-attention katmanlarının gerekliliği sorgulandı
- SSM ve MLP katmanlarını sırayla kullanmak yerine neden self-attention katmanlarının da dahil edildiği soruluyor.
Jamba-v0.1-hybrid-MoE modelinin performans iyileştirmeleri açıklandı
- Jamba-v0.1-hybrid-MoE modelinin mevcut modellere kıyasla daha uzun context, daha yüksek hız ve daha düşük maliyet sunduğu, ayrıca “tek bir model her şeye hükmeder” düşüncesine son vereceği görüşü paylaşılıyor.
Mamba adının çakışması sorununa dikkat çekildi
- Mamba adının zaten popüler bir Python paketi için kullanılıyor olması nedeniyle, isim seçiminin önemi vurgulanıyor.
Sparabo adına değinilerek, yeni şeylere eski isimlerin verilmesinin eğlenceli olduğu belirtildi
- Sparabo adının gerçekten var olup olmadığı soruluyor ve yeni şeylerde eski isimlerin kullanılmasının ilginç olduğu ifade ediliyor.
Uzun context çalışmalarının MemGPT ile bağlantılı olduğuna değinilerek, benzer kavramların Mamba mimarisine sahip modellere de uygulanabileceği öne sürüldü
- MemGPT ile ilgili uzun context çalışmalarından söz edilerek, bunun Mamba mimarili modellere de uygulanabileceği görüşü dile getiriliyor.