11 puan yazan GN⁺ 2024-02-27 | Henüz yorum yok. | WhatsApp'ta paylaş

Mamba, Transformer'a meydan okuyan bir durum uzayı modeli (State Space Model)

  • Yapay zeka şu anda dünyaya hakim durumda ve bunun merkezinde Transformer yer alıyor
  • Mamba, durum uzayı modeli (SSM) adlı alternatif bir model sınıfına ait
  • Mamba, Transformer'a benzer performans ve ölçeklenebilirlik sunarken uzun dizi uzunluklarında da çalışabiliyor
  • Dikkat çekici nokta, Mamba'nın "attention mechanism"in "quadratic bottleneck" sorununu ortadan kaldırarak uzun bağlamı mümkün kılması
  • Mamba, Transformer'dan 5 kata kadar daha hızlı çalışıyor

Transformer'ın sorunu - Yalnızca attention yeterli olmayabilir

  • Transformer'da tüm token'lar önceki token'lara başvurabildiği için bağlam büyüdükçe model yavaşlıyor
  • Bu KV cache'in depolanması da O(n) uzay karmaşıklığı gerektiriyor
  • Mevcut Transformer darboğazını hafifleten teknikler olsa da temel bir çözüm için farklı bir yaklaşım gerekiyor

Temel model omurgası

  • İyi bir ML mimarisi omurgasının iki önemli bileşeni
    • Token'lar arası iletişim (Communication)
    • Token içi hesaplama (Computation)
  • Transformer blokları attention ve MLP'lerden oluşuyor
  • Mamba, iletişim için kontrol teorisinden ilham alan SSM kullanırken hesaplama için MLP tarzı projeksiyonları koruyor

Mamba'nın motivasyonu - Temple Run'a geri dönüş

  • Durum (state), sistemin gelecekteki davranışını belirlemek için gerekli değişkenleri ifade eder
  • Durum, geçmiş hakkında bilinmesi gereken her şeyin sıkıştırılmış halidir ve bir Markov karar sürecine dönüştürülür

Ayrıklaştırma - Kuantize bir dünyada yaşamak

  • Sürekli zamanlı diferansiyel denklemleri ayrık zamanlı fark denklemlerine dönüştürme sürecine ayrıklaştırma (discretisation) denir
  • Mamba, zero-order hold (ZOH) ayrıklaştırmasını kullanır

SSM matrislerini anlamak

  • A, B, C, D matrisleri sırasıyla durum geçişi, yeni girdinin duruma eşlenmesi, durumun SSM çıktısına eşlenmesi ve yeni girdinin doğrudan çıktıya aktarılması görevlerini üstlenir

Verimlilik ve etkililik: Attention is Focus, Selectivity is Prioritisation

  • Transformer çok etkili olsa da çok verimli değil
  • Mamba mimarisi, verimlilik ve etkililik arasındaki Pareto sınırını ileri iten bir çözüm sunuyor

Seçicilik mekanizması

  • Seçicilik (Selectivity), her token'ın kendi ihtiyacına göre duruma dönüştürülebilmesini sağlar
  • Mamba, A, B, C matrislerini x'in fonksiyonu haline getirerek onları statik değil bağlama bağımlı yapar

Seçiciliğin sorunu

  • Seçicilik mekanizması uygulandığında hesaplama, seçici olmayan SSM'lere göre daha yavaş olabilir
  • Donanım optimizasyonu sayesinde Mamba, benzer boyuttaki Transformer'lardan daha hızlı çalışabilir

Makine öğrenimi ve politik ekonomi - Durumun boyutu ne kadar büyük olmalı?

  • Dizi modellerindeki verimlilik-etkililik takası, durumun ne kadar iyi sıkıştırıldığıyla karakterize edilir
  • Durum gösterimi önemlidir; durumu seçici ve dinamik biçimde sıkıştırmak kilit noktadır

Transformer ile Mamba'da bilgi akışı

  • Transformer, eğitim verisi ve bağlam verisi üzerinden öğrenir
  • Mamba'da eğitim verisi ve bağlam verisi sıkıştırılıp filtrelenerek erişilebilir hale gelir

Yeni bir prompting paradigması olarak durum değiştirme

  • Mamba gibi modeller kullanıldığında, uzman verilerle üretilmiş durum kütüphaneleri paylaşılabilir
  • Durum, backprop olmadan çıkarım zamanında sonsuz bağlam öğrenmesinin uygulanmasını mümkün kılar

Mamba ve mekanistik yorumlanabilirlik

  • Mamba'nın yorumlanabilirliği, token'lar arasında bilginin nasıl taşındığını anlamaya odaklanır

Mamba ve SSM'in sıradaki adımı

  • Mamba gibi modellerin, çok uzun bağlam ve uzun süreli bellek gerektiren senaryolarda üstün performans göstermesi muhtemel

Ajanlar ve yapay zeka güvenliği

  • Dil modelleri özünde güvenlidir, ancak uzun vadeli dizi muhakemesi olasılığı ajan tabanlı yapay zeka güvenliğinin önemini yeniden gündeme getiriyor

Transformer ve Mamba'nın en iyi iş birliği

  • Mamba'nın uzun bağlam yeteneği ile Transformer'ın kısa dizilerdeki yüksek çözünürlüğünü birleştirmek değerli olabilir

GN⁺ görüşü

  • Mamba, Transformer darboğazlarını ele alıyor ve uzun dizi işleme için etkili bir alternatif sunuyor
  • Bu teknoloji özellikle tıp, genetik, doğal dil işleme gibi uzun veri dizilerinin önemli olduğu alanlarda faydalı olabilir
  • Mamba'nın seçicilik mekanizmasının gerçekten etkili olup olmadığına dair daha fazla araştırmaya ihtiyaç var
  • Mamba'nın seçiciliği, Transformer'ın sunduğu yüksek doğruluk ile verimlilik arasında denge bulunmasına yardımcı olabilir

Henüz yorum yok.

Henüz yorum yok.