Mamba, Transformer'a meydan okuyan bir durum uzayı modeli (State Space Model)
- Yapay zeka şu anda dünyaya hakim durumda ve bunun merkezinde Transformer yer alıyor
- Mamba, durum uzayı modeli (SSM) adlı alternatif bir model sınıfına ait
- Mamba, Transformer'a benzer performans ve ölçeklenebilirlik sunarken uzun dizi uzunluklarında da çalışabiliyor
- Dikkat çekici nokta, Mamba'nın "attention mechanism"in "quadratic bottleneck" sorununu ortadan kaldırarak uzun bağlamı mümkün kılması
- Mamba, Transformer'dan 5 kata kadar daha hızlı çalışıyor
Transformer'ın sorunu - Yalnızca attention yeterli olmayabilir
- Transformer'da tüm token'lar önceki token'lara başvurabildiği için bağlam büyüdükçe model yavaşlıyor
- Bu KV cache'in depolanması da O(n) uzay karmaşıklığı gerektiriyor
- Mevcut Transformer darboğazını hafifleten teknikler olsa da temel bir çözüm için farklı bir yaklaşım gerekiyor
Temel model omurgası
- İyi bir ML mimarisi omurgasının iki önemli bileşeni
- Token'lar arası iletişim (Communication)
- Token içi hesaplama (Computation)
- Transformer blokları attention ve MLP'lerden oluşuyor
- Mamba, iletişim için kontrol teorisinden ilham alan SSM kullanırken hesaplama için MLP tarzı projeksiyonları koruyor
Mamba'nın motivasyonu - Temple Run'a geri dönüş
- Durum (state), sistemin gelecekteki davranışını belirlemek için gerekli değişkenleri ifade eder
- Durum, geçmiş hakkında bilinmesi gereken her şeyin sıkıştırılmış halidir ve bir Markov karar sürecine dönüştürülür
Ayrıklaştırma - Kuantize bir dünyada yaşamak
- Sürekli zamanlı diferansiyel denklemleri ayrık zamanlı fark denklemlerine dönüştürme sürecine ayrıklaştırma (discretisation) denir
- Mamba, zero-order hold (ZOH) ayrıklaştırmasını kullanır
SSM matrislerini anlamak
- A, B, C, D matrisleri sırasıyla durum geçişi, yeni girdinin duruma eşlenmesi, durumun SSM çıktısına eşlenmesi ve yeni girdinin doğrudan çıktıya aktarılması görevlerini üstlenir
Verimlilik ve etkililik: Attention is Focus, Selectivity is Prioritisation
- Transformer çok etkili olsa da çok verimli değil
- Mamba mimarisi, verimlilik ve etkililik arasındaki Pareto sınırını ileri iten bir çözüm sunuyor
Seçicilik mekanizması
- Seçicilik (Selectivity), her token'ın kendi ihtiyacına göre duruma dönüştürülebilmesini sağlar
- Mamba, A, B, C matrislerini x'in fonksiyonu haline getirerek onları statik değil bağlama bağımlı yapar
Seçiciliğin sorunu
- Seçicilik mekanizması uygulandığında hesaplama, seçici olmayan SSM'lere göre daha yavaş olabilir
- Donanım optimizasyonu sayesinde Mamba, benzer boyuttaki Transformer'lardan daha hızlı çalışabilir
Makine öğrenimi ve politik ekonomi - Durumun boyutu ne kadar büyük olmalı?
- Dizi modellerindeki verimlilik-etkililik takası, durumun ne kadar iyi sıkıştırıldığıyla karakterize edilir
- Durum gösterimi önemlidir; durumu seçici ve dinamik biçimde sıkıştırmak kilit noktadır
Transformer ile Mamba'da bilgi akışı
- Transformer, eğitim verisi ve bağlam verisi üzerinden öğrenir
- Mamba'da eğitim verisi ve bağlam verisi sıkıştırılıp filtrelenerek erişilebilir hale gelir
Yeni bir prompting paradigması olarak durum değiştirme
- Mamba gibi modeller kullanıldığında, uzman verilerle üretilmiş durum kütüphaneleri paylaşılabilir
- Durum, backprop olmadan çıkarım zamanında sonsuz bağlam öğrenmesinin uygulanmasını mümkün kılar
Mamba ve mekanistik yorumlanabilirlik
- Mamba'nın yorumlanabilirliği, token'lar arasında bilginin nasıl taşındığını anlamaya odaklanır
Mamba ve SSM'in sıradaki adımı
- Mamba gibi modellerin, çok uzun bağlam ve uzun süreli bellek gerektiren senaryolarda üstün performans göstermesi muhtemel
Ajanlar ve yapay zeka güvenliği
- Dil modelleri özünde güvenlidir, ancak uzun vadeli dizi muhakemesi olasılığı ajan tabanlı yapay zeka güvenliğinin önemini yeniden gündeme getiriyor
Transformer ve Mamba'nın en iyi iş birliği
- Mamba'nın uzun bağlam yeteneği ile Transformer'ın kısa dizilerdeki yüksek çözünürlüğünü birleştirmek değerli olabilir
GN⁺ görüşü
- Mamba, Transformer darboğazlarını ele alıyor ve uzun dizi işleme için etkili bir alternatif sunuyor
- Bu teknoloji özellikle tıp, genetik, doğal dil işleme gibi uzun veri dizilerinin önemli olduğu alanlarda faydalı olabilir
- Mamba'nın seçicilik mekanizmasının gerçekten etkili olup olmadığına dair daha fazla araştırmaya ihtiyaç var
- Mamba'nın seçiciliği, Transformer'ın sunduğu yüksek doğruluk ile verimlilik arasında denge bulunmasına yardımcı olabilir
Henüz yorum yok.