- AI21 Labs, Mamba mimarisini temel alan dünyanın ilk prodüksiyon düzeyindeki yapay zeka modeli Jamba'yı duyurdu
- Jamba, Mamba SSM (Structured State Space Model) ile geleneksel transformer mimarisinin güçlü yönlerini birleştirerek etkileyici performans ve verimlilik artışı sunuyor
- 256K token'lık geniş bir context window sunuyor. Tek bir 80GB GPU üzerinde 140K token'a kadar işleyebiliyor
Jamba'nın hibrit mimarisi ve performansı
- Jamba, hibrit SSM-transformer mimarisi üzerinden, 52B parametrenin yalnızca 12B'sini çıkarım sırasında kullanan Mixture of Experts (MoE) katmanlarından yararlanıyor
- Meta'nın Llama 2'si gibi rakip modellere göre çok daha uzun context'leri işleyebiliyor ve yüksek throughput ile verimliliği koruyor
- Uzun context'lerde 3 kat daha yüksek throughput sunuyor ve benzer boyuttaki transformer tabanlı modellere göre daha verimli
- Blok ve katman yaklaşımını benimsiyor; her Jamba bloğu bir attention veya Mamba katmanı içeriyor, ardından çok katmanlı perceptron (MLP) geliyor
- Bu yapıda her 8 katmandan 1'i transformer katmanı olarak kullanılıyor
- Çeşitli benchmark'larda güçlü sonuçlar gösteriyor; aynı boyuttaki güncel modellerle karşılaştırıldığında geniş bir görev yelpazesinde ya onları geride bırakıyor ya da onlarla eşleşiyor
Lisans
- Jamba, Apache 2.0 lisansı altında open-weight olarak yayımlandı ve Hugging Face üzerinde erişilebilir
- Şu anda Jamba, ticari kullanım için gerekli güvenlik önlemleri olmadan bir araştırma modeli olarak yayımlandı; ancak AI21 Labs önümüzdeki birkaç hafta içinde daha güvenli bir sürüm yayımlamayı planlıyor
1 yorum
Hacker News görüşleri