11 puan yazan xguru 2024-03-30 | 1 yorum | WhatsApp'ta paylaş
  • AI21 Labs, Mamba mimarisini temel alan dünyanın ilk prodüksiyon düzeyindeki yapay zeka modeli Jamba'yı duyurdu
  • Jamba, Mamba SSM (Structured State Space Model) ile geleneksel transformer mimarisinin güçlü yönlerini birleştirerek etkileyici performans ve verimlilik artışı sunuyor
  • 256K token'lık geniş bir context window sunuyor. Tek bir 80GB GPU üzerinde 140K token'a kadar işleyebiliyor

Jamba'nın hibrit mimarisi ve performansı

  • Jamba, hibrit SSM-transformer mimarisi üzerinden, 52B parametrenin yalnızca 12B'sini çıkarım sırasında kullanan Mixture of Experts (MoE) katmanlarından yararlanıyor
  • Meta'nın Llama 2'si gibi rakip modellere göre çok daha uzun context'leri işleyebiliyor ve yüksek throughput ile verimliliği koruyor
  • Uzun context'lerde 3 kat daha yüksek throughput sunuyor ve benzer boyuttaki transformer tabanlı modellere göre daha verimli
  • Blok ve katman yaklaşımını benimsiyor; her Jamba bloğu bir attention veya Mamba katmanı içeriyor, ardından çok katmanlı perceptron (MLP) geliyor
  • Bu yapıda her 8 katmandan 1'i transformer katmanı olarak kullanılıyor
  • Çeşitli benchmark'larda güçlü sonuçlar gösteriyor; aynı boyuttaki güncel modellerle karşılaştırıldığında geniş bir görev yelpazesinde ya onları geride bırakıyor ya da onlarla eşleşiyor

Lisans

  • Jamba, Apache 2.0 lisansı altında open-weight olarak yayımlandı ve Hugging Face üzerinde erişilebilir
  • Şu anda Jamba, ticari kullanım için gerekli güvenlik önlemleri olmadan bir araştırma modeli olarak yayımlandı; ancak AI21 Labs önümüzdeki birkaç hafta içinde daha güvenli bir sürüm yayımlamayı planlıyor

1 yorum

 
xguru 2024-03-30

Hacker News görüşleri

  • Mamba hakkında açıklama içeren yakın tarihli bir başlığa bağlantı paylaşıldı
  • Transformer ve state space model katmanları arasındaki trade-off’u merak edenlere Sasha Rush’ın videosu önerildi
    • Sasha Rush’ın videosu, transformer ve state space model katmanları arasındaki farkları anlamaya yardımcı oluyor.
  • Linux’ta 1 veya 2 adet 4090 GPU ile çalıştırmaya çalışırken yaşanan sorun paylaşıldı
    • Linux’ta 4090 GPU kullanarak checkpoint yükleme sırasında sorun yaşanıyor; VRAM yeterli görünüyor ama yine de başarısız oluyor. Denemeye yönelik ilgi ifade ediliyor.
  • Mamba kullanan tam üretim düzeyinde bir modelin ortaya çıkışı memnuniyetle karşılanırken, uzun context window benchmark’larında hem performans hem throughput açısından ilgi dile getirildi
    • Mamba uzun context kullanıldığında throughput ciddi biçimde artıyor, ancak doğrulukta küçük bir kayıp olduğu izlenimi veriyor.
  • LLM’lerin (Large Language Models) verimsizliğine dikkat çekildi
    • 80GB GPU belleği gerektiren LLM’lerin verimsizliğinden söz edilerek, algoritmik iyileştirme için hâlâ çok alan olduğu umudu paylaşılıyor.
  • Self-attention katmanlarının gerekliliği sorgulandı
    • SSM ve MLP katmanlarını sırayla kullanmak yerine neden self-attention katmanlarının da dahil edildiği soruluyor.
  • Jamba-v0.1-hybrid-MoE modelinin performans iyileştirmeleri açıklandı
    • Jamba-v0.1-hybrid-MoE modelinin mevcut modellere kıyasla daha uzun context, daha yüksek hız ve daha düşük maliyet sunduğu, ayrıca “tek bir model her şeye hükmeder” düşüncesine son vereceği görüşü paylaşılıyor.
  • Mamba adının çakışması sorununa dikkat çekildi
    • Mamba adının zaten popüler bir Python paketi için kullanılıyor olması nedeniyle, isim seçiminin önemi vurgulanıyor.
  • Sparabo adına değinilerek, yeni şeylere eski isimlerin verilmesinin eğlenceli olduğu belirtildi
    • Sparabo adının gerçekten var olup olmadığı soruluyor ve yeni şeylerde eski isimlerin kullanılmasının ilginç olduğu ifade ediliyor.
  • Uzun context çalışmalarının MemGPT ile bağlantılı olduğuna değinilerek, benzer kavramların Mamba mimarisine sahip modellere de uygulanabileceği öne sürüldü
    • MemGPT ile ilgili uzun context çalışmalarından söz edilerek, bunun Mamba mimarili modellere de uygulanabileceği görüşü dile getiriliyor.