9 puan yazan GN⁺ 2025-12-08 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Titans mimarisi ve MIRAS çerçevesi, yapay zeka modellerinin çalıştırma sırasında da temel belleği güncelleyerek geniş bağlamı hızlı şekilde işleyebilmesi için tasarlandı
  • Titans, RNN'nin hızını ve Transformer'ın doğruluğunu birleştirerek, girdi içinde "sürpriz" değeri yüksek bilgiyi uzun dönem belleğe seçici olarak kaydeder
  • MIRAS, farklı sıra modeli türlerini bütünsel olarak yorumlayan kuramsal bir tasarım planıdır ve bellek yapısı, önyargı, unutma ile optimizasyon süreçlerini düzenli hale getirir
  • Deneysel sonuçlara göre, Titans ve MIRAS varyant modelleri (YAAD, MONETA, MEMORA), Transformer++·Mamba-2 gibi en yeni modellerden uzun bağlam işleme ve verimlilikte daha yüksek performans gösterdi
  • Bu çalışma, RNN'nin verimliliği ile Transformer'ın ifade gücünü birleştiren yeni jenerasyon uzun bağlamlı yapay zeka modeline geçişi ortaya koyuyor

Titans ve MIRAS Genel Bakış

  • Titans mimarisi ve MIRAS çerçevesi, yapay zekanın çalıştırma sırasında gerçek zamanlı olarak belleği güncelleyip büyük bağlamları işleyebilecek biçimde tasarlanmıştır
    • Mevcut Transformer'ın dikkat (attention) mekanizması, dizi uzunluğuna göre hesaplama maliyetini hızla artırır
    • Titans ve MIRAS bu sınırı aşarak uzun bağlam anlama ve gerçek zamanlı uyumu mümkün kılar
  • Titans, somut bir model mimarisidir; MIRAS ise bunu genelleştiren teorik bir şablondur
    • Her iki sistem de test-time belleğe alma (test-time memorization) kavramını geliştirerek, yeniden eğitime ihtiyaç duymadan çalıştırma sırasında yeni bilgiyi bütünleştirir

Titans: Gerçek Zamanlı Bağlam Öğrenimi

  • Titans, kısa süreli bellek (dikkat mekanizması) ile **uzun süreli bellek (sinir ağı tabanlı modül)**ü ayırarak insan bellek yapısını taklit eder
    • Uzun süreli bellek modülü çok katmanlı algılayıcı ağ (MLP) biçiminde olup, sabit vektör yerine derin bir sinir ağıyla daha zengin bilgi özetleri üretir
  • Temel kavram **'sürpriz metriği (surprise metric)'**tir
    • Girdi, mevcut bellekle ne kadar farklıysa o kadar yüksek sürpriz kabul edilir ve uzun dönem belleğe kaydedilir
    • Örn: Beklenen kelime (cat) düşük sürprizle, beklenmedik girdi (banana peel) yüksek sürprizle işlenir
  • Titans, momentum ve weight decay mekanizmalarını birleştirir
    • Momentum, yakın bağlamın sürekliliğini yansıtarak ilgili bilgileri de birlikte saklar
    • Unutma (weight decay), gereksiz bilgiyi gidererek bellek kapasitesini verimli tutar

MIRAS: Dizi Modellerine Entegre Bakış

  • MIRAS, tüm dizi modellerini bir assosiyatif bellek (associative memory) sistemi olarak yorumlar
    • Farklı modellerin, sonuç olarak "yeni bilgiyi ve mevcut belleği verimli biçimde birleştirme" aynı problemini çözdüğünü tanımlar
  • MIRAS, modelleri dört tasarım ögesiyle tanımlar
    • Bellek yapısı: Bilgi saklama biçimi (vektör, matris, MLP vb.)
    • Dikkat önyargısı: Modelin hangi bilgiyi önceliklendirdiğini belirler
    • Tutma kapısı (retention gate): Unutmayı düzenleyen bir normalizasyon yöntemi
    • Bellek algoritması: Bellek güncelleme optimizasyon yöntemi
  • Mevcut modellerin ortalama karesel hata (MSE) veya iç çarpım benzerliğine dayanma sınırlılığını aşarak, öklidyen olmayan (non-Euclidean) amaç fonksiyonları ve düzenlileştirmeleri keşfeder

MIRAS Tabanlı Modeller

  • YAAD: Girdi hatalarına ve aykırı değerlere karşı daha az duyarlı yapıda, Huber loss kullanır
  • MONETA: Genel normlar (generalized norms) uygulayarak stabil uzun dönem bellek sürdürür
  • MEMORA: Belleği olasılık haritası gibi kısıtlayarak dengeli bilgi bütünleştirmeyi garanti eder
  • Her üç model de dikkat (attention) olmaksızın güçlü uzun dönem bellek performansı elde eder

Deney Sonuçları ve Performans

  • Titans ve MIRAS türev modelleri, Transformer++, Mamba-2, Gated DeltaNet gibi modern yapılarla karşılaştırmalı olarak değerlendirildi
    • Dil modelleme (C4, WikiText) ve sıfır-shot çıkarım (HellaSwag, PIQA) görevlerinde daha yüksek doğruluk ve daha düşük perplexity elde edildi
    • DNA modelleme ve zaman serisi tahmininde de genelleme performansı doğrulandı
  • Bellek derinliği (Depth) performans üzerinde belirleyici bir etkendir
    • Aynı boyutta bellek olsa bile daha derin yapıda daha düşük perplexity ve daha iyi ölçeklenebilirlik sağlanır
  • Verimlilik açısından, Titans paralel eğitim ve doğrusal çıkarım hızını korurken mevcut modellere göre daha hızlı işleme imkânı sunuyor
  • BABILong benchmarkında, GPT-4'ten daha az parametreyle bile uzun bağlam çıkarımında üstün performans gösteriyor
    • En fazla 2 milyon tokendan fazla bağlam penceresini etkili biçimde işliyor

Sonuç

  • Titans ve MIRAS, sabit boyutlu tekrarlı durumun sınırlamalarını aşarak, veri akışı sırasında gerçek zamanlı öğrenen yeni bir bellek yapısı sunuyor
  • MIRAS, çevrim içi optimizasyon, ilişkilendirici bellek ve mimari tasarımı bütünleştiren güçlü bir kuramsal çerçeve sağlıyor
  • Öklidyen olmayan tasarım uzayı ile RNN verimliliğini Transformer ifade gücüyle birleştirerek uzun bağlamlı yapay zeka model çağını başlatacak bir temel oluşturuyor

Henüz yorum yok.

Henüz yorum yok.