- Titans mimarisi ve MIRAS çerçevesi, yapay zeka modellerinin çalıştırma sırasında da temel belleği güncelleyerek geniş bağlamı hızlı şekilde işleyebilmesi için tasarlandı
- Titans, RNN'nin hızını ve Transformer'ın doğruluğunu birleştirerek, girdi içinde "sürpriz" değeri yüksek bilgiyi uzun dönem belleğe seçici olarak kaydeder
- MIRAS, farklı sıra modeli türlerini bütünsel olarak yorumlayan kuramsal bir tasarım planıdır ve bellek yapısı, önyargı, unutma ile optimizasyon süreçlerini düzenli hale getirir
- Deneysel sonuçlara göre, Titans ve MIRAS varyant modelleri (YAAD, MONETA, MEMORA), Transformer++·Mamba-2 gibi en yeni modellerden uzun bağlam işleme ve verimlilikte daha yüksek performans gösterdi
- Bu çalışma, RNN'nin verimliliği ile Transformer'ın ifade gücünü birleştiren yeni jenerasyon uzun bağlamlı yapay zeka modeline geçişi ortaya koyuyor
Titans ve MIRAS Genel Bakış
- Titans mimarisi ve MIRAS çerçevesi, yapay zekanın çalıştırma sırasında gerçek zamanlı olarak belleği güncelleyip büyük bağlamları işleyebilecek biçimde tasarlanmıştır
- Mevcut Transformer'ın dikkat (attention) mekanizması, dizi uzunluğuna göre hesaplama maliyetini hızla artırır
- Titans ve MIRAS bu sınırı aşarak uzun bağlam anlama ve gerçek zamanlı uyumu mümkün kılar
- Titans, somut bir model mimarisidir; MIRAS ise bunu genelleştiren teorik bir şablondur
- Her iki sistem de test-time belleğe alma (test-time memorization) kavramını geliştirerek, yeniden eğitime ihtiyaç duymadan çalıştırma sırasında yeni bilgiyi bütünleştirir
Titans: Gerçek Zamanlı Bağlam Öğrenimi
- Titans, kısa süreli bellek (dikkat mekanizması) ile **uzun süreli bellek (sinir ağı tabanlı modül)**ü ayırarak insan bellek yapısını taklit eder
- Uzun süreli bellek modülü çok katmanlı algılayıcı ağ (MLP) biçiminde olup, sabit vektör yerine derin bir sinir ağıyla daha zengin bilgi özetleri üretir
- Temel kavram **'sürpriz metriği (surprise metric)'**tir
- Girdi, mevcut bellekle ne kadar farklıysa o kadar yüksek sürpriz kabul edilir ve uzun dönem belleğe kaydedilir
- Örn: Beklenen kelime (
cat) düşük sürprizle, beklenmedik girdi (banana peel) yüksek sürprizle işlenir
- Titans, momentum ve weight decay mekanizmalarını birleştirir
- Momentum, yakın bağlamın sürekliliğini yansıtarak ilgili bilgileri de birlikte saklar
- Unutma (weight decay), gereksiz bilgiyi gidererek bellek kapasitesini verimli tutar
MIRAS: Dizi Modellerine Entegre Bakış
- MIRAS, tüm dizi modellerini bir assosiyatif bellek (associative memory) sistemi olarak yorumlar
- Farklı modellerin, sonuç olarak "yeni bilgiyi ve mevcut belleği verimli biçimde birleştirme" aynı problemini çözdüğünü tanımlar
- MIRAS, modelleri dört tasarım ögesiyle tanımlar
- Bellek yapısı: Bilgi saklama biçimi (vektör, matris, MLP vb.)
- Dikkat önyargısı: Modelin hangi bilgiyi önceliklendirdiğini belirler
- Tutma kapısı (retention gate): Unutmayı düzenleyen bir normalizasyon yöntemi
- Bellek algoritması: Bellek güncelleme optimizasyon yöntemi
- Mevcut modellerin ortalama karesel hata (MSE) veya iç çarpım benzerliğine dayanma sınırlılığını aşarak, öklidyen olmayan (non-Euclidean) amaç fonksiyonları ve düzenlileştirmeleri keşfeder
MIRAS Tabanlı Modeller
- YAAD: Girdi hatalarına ve aykırı değerlere karşı daha az duyarlı yapıda, Huber loss kullanır
- MONETA: Genel normlar (generalized norms) uygulayarak stabil uzun dönem bellek sürdürür
- MEMORA: Belleği olasılık haritası gibi kısıtlayarak dengeli bilgi bütünleştirmeyi garanti eder
- Her üç model de dikkat (attention) olmaksızın güçlü uzun dönem bellek performansı elde eder
Deney Sonuçları ve Performans
- Titans ve MIRAS türev modelleri, Transformer++, Mamba-2, Gated DeltaNet gibi modern yapılarla karşılaştırmalı olarak değerlendirildi
- Dil modelleme (C4, WikiText) ve sıfır-shot çıkarım (HellaSwag, PIQA) görevlerinde daha yüksek doğruluk ve daha düşük perplexity elde edildi
- DNA modelleme ve zaman serisi tahmininde de genelleme performansı doğrulandı
- Bellek derinliği (Depth) performans üzerinde belirleyici bir etkendir
- Aynı boyutta bellek olsa bile daha derin yapıda daha düşük perplexity ve daha iyi ölçeklenebilirlik sağlanır
- Verimlilik açısından, Titans paralel eğitim ve doğrusal çıkarım hızını korurken mevcut modellere göre daha hızlı işleme imkânı sunuyor
- BABILong benchmarkında, GPT-4'ten daha az parametreyle bile uzun bağlam çıkarımında üstün performans gösteriyor
- En fazla 2 milyon tokendan fazla bağlam penceresini etkili biçimde işliyor
Sonuç
- Titans ve MIRAS, sabit boyutlu tekrarlı durumun sınırlamalarını aşarak, veri akışı sırasında gerçek zamanlı öğrenen yeni bir bellek yapısı sunuyor
- MIRAS, çevrim içi optimizasyon, ilişkilendirici bellek ve mimari tasarımı bütünleştiren güçlü bir kuramsal çerçeve sağlıyor
- Öklidyen olmayan tasarım uzayı ile RNN verimliliğini Transformer ifade gücüyle birleştirerek uzun bağlamlı yapay zeka model çağını başlatacak bir temel oluşturuyor
Henüz yorum yok.