9 puan yazan GN⁺ 2025-12-08 | 1 yorum | WhatsApp'ta paylaş
  • Titans mimarisi ve MIRAS çerçevesi, yapay zeka modellerinin çalıştırma sırasında da temel belleği güncelleyerek geniş bağlamı hızlı şekilde işleyebilmesi için tasarlandı
  • Titans, RNN'nin hızını ve Transformer'ın doğruluğunu birleştirerek, girdi içinde "sürpriz" değeri yüksek bilgiyi uzun dönem belleğe seçici olarak kaydeder
  • MIRAS, farklı sıra modeli türlerini bütünsel olarak yorumlayan kuramsal bir tasarım planıdır ve bellek yapısı, önyargı, unutma ile optimizasyon süreçlerini düzenli hale getirir
  • Deneysel sonuçlara göre, Titans ve MIRAS varyant modelleri (YAAD, MONETA, MEMORA), Transformer++·Mamba-2 gibi en yeni modellerden uzun bağlam işleme ve verimlilikte daha yüksek performans gösterdi
  • Bu çalışma, RNN'nin verimliliği ile Transformer'ın ifade gücünü birleştiren yeni jenerasyon uzun bağlamlı yapay zeka modeline geçişi ortaya koyuyor

Titans ve MIRAS Genel Bakış

  • Titans mimarisi ve MIRAS çerçevesi, yapay zekanın çalıştırma sırasında gerçek zamanlı olarak belleği güncelleyip büyük bağlamları işleyebilecek biçimde tasarlanmıştır
    • Mevcut Transformer'ın dikkat (attention) mekanizması, dizi uzunluğuna göre hesaplama maliyetini hızla artırır
    • Titans ve MIRAS bu sınırı aşarak uzun bağlam anlama ve gerçek zamanlı uyumu mümkün kılar
  • Titans, somut bir model mimarisidir; MIRAS ise bunu genelleştiren teorik bir şablondur
    • Her iki sistem de test-time belleğe alma (test-time memorization) kavramını geliştirerek, yeniden eğitime ihtiyaç duymadan çalıştırma sırasında yeni bilgiyi bütünleştirir

Titans: Gerçek Zamanlı Bağlam Öğrenimi

  • Titans, kısa süreli bellek (dikkat mekanizması) ile **uzun süreli bellek (sinir ağı tabanlı modül)**ü ayırarak insan bellek yapısını taklit eder
    • Uzun süreli bellek modülü çok katmanlı algılayıcı ağ (MLP) biçiminde olup, sabit vektör yerine derin bir sinir ağıyla daha zengin bilgi özetleri üretir
  • Temel kavram **'sürpriz metriği (surprise metric)'**tir
    • Girdi, mevcut bellekle ne kadar farklıysa o kadar yüksek sürpriz kabul edilir ve uzun dönem belleğe kaydedilir
    • Örn: Beklenen kelime (cat) düşük sürprizle, beklenmedik girdi (banana peel) yüksek sürprizle işlenir
    Reklam
  • Titans, momentum ve weight decay mekanizmalarını birleştirir
    • Momentum, yakın bağlamın sürekliliğini yansıtarak ilgili bilgileri de birlikte saklar
    • Unutma (weight decay), gereksiz bilgiyi gidererek bellek kapasitesini verimli tutar

MIRAS: Dizi Modellerine Entegre Bakış

  • MIRAS, tüm dizi modellerini bir assosiyatif bellek (associative memory) sistemi olarak yorumlar
    • Farklı modellerin, sonuç olarak "yeni bilgiyi ve mevcut belleği verimli biçimde birleştirme" aynı problemini çözdüğünü tanımlar
  • MIRAS, modelleri dört tasarım ögesiyle tanımlar
    • Bellek yapısı: Bilgi saklama biçimi (vektör, matris, MLP vb.)
    • Dikkat önyargısı: Modelin hangi bilgiyi önceliklendirdiğini belirler
    • Tutma kapısı (retention gate): Unutmayı düzenleyen bir normalizasyon yöntemi
    • Bellek algoritması: Bellek güncelleme optimizasyon yöntemi
  • Mevcut modellerin ortalama karesel hata (MSE) veya iç çarpım benzerliğine dayanma sınırlılığını aşarak, öklidyen olmayan (non-Euclidean) amaç fonksiyonları ve düzenlileştirmeleri keşfeder
Reklam

MIRAS Tabanlı Modeller

  • YAAD: Girdi hatalarına ve aykırı değerlere karşı daha az duyarlı yapıda, Huber loss kullanır
  • MONETA: Genel normlar (generalized norms) uygulayarak stabil uzun dönem bellek sürdürür
  • MEMORA: Belleği olasılık haritası gibi kısıtlayarak dengeli bilgi bütünleştirmeyi garanti eder
  • Her üç model de dikkat (attention) olmaksızın güçlü uzun dönem bellek performansı elde eder

Deney Sonuçları ve Performans

  • Titans ve MIRAS türev modelleri, Transformer++, Mamba-2, Gated DeltaNet gibi modern yapılarla karşılaştırmalı olarak değerlendirildi
    • Dil modelleme (C4, WikiText) ve sıfır-shot çıkarım (HellaSwag, PIQA) görevlerinde daha yüksek doğruluk ve daha düşük perplexity elde edildi
    • DNA modelleme ve zaman serisi tahmininde de genelleme performansı doğrulandı
  • Bellek derinliği (Depth) performans üzerinde belirleyici bir etkendir
    • Aynı boyutta bellek olsa bile daha derin yapıda daha düşük perplexity ve daha iyi ölçeklenebilirlik sağlanır
  • Verimlilik açısından, Titans paralel eğitim ve doğrusal çıkarım hızını korurken mevcut modellere göre daha hızlı işleme imkânı sunuyor
  • BABILong benchmarkında, GPT-4'ten daha az parametreyle bile uzun bağlam çıkarımında üstün performans gösteriyor
    • En fazla 2 milyon tokendan fazla bağlam penceresini etkili biçimde işliyor

Sonuç

  • Titans ve MIRAS, sabit boyutlu tekrarlı durumun sınırlamalarını aşarak, veri akışı sırasında gerçek zamanlı öğrenen yeni bir bellek yapısı sunuyor
  • MIRAS, çevrim içi optimizasyon, ilişkilendirici bellek ve mimari tasarımı bütünleştiren güçlü bir kuramsal çerçeve sağlıyor
  • Öklidyen olmayan tasarım uzayı ile RNN verimliliğini Transformer ifade gücüyle birleştirerek uzun bağlamlı yapay zeka model çağını başlatacak bir temel oluşturuyor

1 yorum

 
GN⁺ 2025-12-08
Hacker News görüşleri
  • Titans: Learning to Memorize at Test Time makalesi tanıtılıyor
    Orijinali arXiv bağlantısında yer alıyor

    • Google'ın bu düzeyde AI araştırmasını açık şekilde paylaşan başka bir şirket olup olmadığını merak ediyor
      İlgili makaleler birinci ve ikinci bağlantılarda görülebilir. Google'ın bu şeffaflıkla büyük bir güven kazanmayı hak ettiğini düşünüyor
      • DeepSeek gibi Çinli şirketler de araştırmalarını aktif biçimde yayımlıyor ve bunu gerçekten açık modellerle doğruluyor
        ABD'deki büyük araştırma laboratuvarlarının makaleleri çoğu zaman pratik performanstan kopuk oluyor. DeepSeek örneği olarak bu makaleden ve şu makaleden söz ediliyor
      • Makalelerin yayımlanması iyi ama 11 ay geçmiş olmasına rağmen Titans mimarisinin model kodu ya da ağırlıkları hâlâ indirilemiyor
        Meta'nın Llama'sı, Qwen ve DeepSeek bu konuda çok daha ileride. Şu anda elde olan tek şey resmi olmayan implementasyon
      • Bytedance da makaleler yayımlama konusunda oldukça aktif
        Son dönemde etkileyici bulunan proje lumine olmuş; makale bağlantısı ve resmî araştırma sayfası paylaşılmış
      • Meta da araştırmalarını açık biçimde paylaşıyor ve son dönemde Çinli şirketlerde de benzer bir eğilim görülüyor
      • Ekosistemin %80'i zaten birçok şirket ve bireyin yayımladığı araştırmaların üzerine kurulmuş durumda
        Bu yüzden yalnızca Google'ın özel olarak daha fazla takdir edilmesi için bir neden olmadığını düşünüyor
  • “Sonunda ‘Torment Nexus’u yaptık” şakasını yapıyor
    Eclipse Phase evreninde TITAN'ın insanlığı yok eden bir AI ağı olduğuna değiniyor

  • Titans mimarisinin özü, iç hata sinyali (gradient) üzerinden şaşırtıcılık ve önemi değerlendirip buna göre uzun süreli belleği güncellemesi
    Böyle bir yapıda modeli rastgele gürültü girdileriyle bozmanın mümkün olup olmadığını merak ediyor

    • Bu, Titans'ın çalışma mantığına getirilmiş basitleştirilmiş bir yorum
      Model, çıkarım sırasında da öğreniyor ve eğitim aşamasında ‘neyi öğreneceğini’ öğreniyor
      Anlamsız girdilere düşük surprise embedding atanıyor, bu yüzden öğrenmeye neredeyse hiç yansımıyor
    • Aslında her türlü AI'nin tepkisi rastgele girdilerle bozulabilir
    • Muhtemelen araştırmacılar da bu sorunun baştan beri farkındaydı; yanlış anlama daha çok yüzeysel açıklamadan kaynaklanmış gibi görünüyor
    • İnsanların duygu sistemi (limbik sistem) gibi, AI'nin de duygu temelli bir bellek mekanizmasına ihtiyacı olduğunu düşünüyor
      İnsanlar yeniliğe göre değil, duygusal yoğunluğa göre hatırlar. AI'nin de ‘ne istediğine’ dair bir iç duruma sahip olması gerektiğini savunuyor
    • İnsanlar beyin yıkama ortamına kapatıldığında yanlış bilgileri tekrar etmeye başlayabildiği gibi, AI'de de girdi akışı sınırlanırsa benzer bir durum ortaya çıkabilir
      Ancak codebase geliştirme gibi bağlamın korunduğu ortamlarda, geçmiş tasarım kararlarını ve tartışmaları hatırlayarak daha iyi kararlar verebilir
  • Titans makalesini ilk okuduğunda “bu büyük bir ilerleme olacak” diye hissetmiş
    AI sektöründe çalışmasa da uzun süredir insansı düşünebilen AI üzerine kafa yoruyor
    LLM'ler bu ölçüte çok uzak kalmıştı ama Titans bu yöne doğru bir adım gibi görünüyor
    Bu düşüncelerini blogunda toparlamak istiyor ama tanınan biri olmadığı için ilgi görüp görmeyeceğinden emin değil
    Yine de Titans'ın gerçek bir implementasyonu çıkarsa herkesi şaşırtacağını düşünüyor

    • Bloga düzenli yazı yazarsa zamanla tanınan biri hâline gelebileceği söyleniyor
    • Bugünlerde AI yazıları ayrıntı tekniklere fazla saplanma eğiliminde
      Büyük resmi gösteren yazılar ise daha yararlı içgörüler sunabilir
    • Bu yazıyı HN'de paylaşarak geri bildirim almayı denemesi öneriliyor
  • Titans hakkında daha önce bir blog yazısı yazdığını söylüyor

    • Ama ortada hâlâ önceden eğitilmiş bir model yok
      Google'ın iddiaları dışında doğrulanmış bir implementasyon bulunmuyor ve devam araştırmaları da neredeyse yok denecek kadar az
  • Titans yapısının prompt injection karşısında daha mı kırılgan yoksa daha mı dayanıklı olacağını merak ediyor
    Gerçek zamanlı öğrenme savunmayı güçlendirebilir ama kötü niyetli girdilerin daha derine işlemesine de yol açabilir

  • Transformer'ın attention mekanizması açıklamasını okurken, Cursor gibi IDE'lerin belleği nasıl yönettiğini merak etmiş
    Sanki codebase'i ve bağlamı giderek daha iyi anlıyor gibi görünüyor

    • Ancak bu makale, böyle IDE bellek yönetimiyle ilgili değil
      Sadece Transformer'ın context window yapısının nasıl çalıştığını açıklayan bir bölüm
  • Titans'ı LoRA gibi sürekli uyum sağlayan bir yapı olarak düşünüp düşünemeyeceğini soruyor
    Eğer öyleyse, LoRA'nın ana modele geri birleştirildiği bir aşama olup olmadığını merak ediyor; bunu adeta uyku süreci gibi tarif ediyor

    • LoRA genelde dışarıdan eklenen düşük boyutlu adapterler olduğu için Titans'tan farklı
      Titans'ta böyle düşük boyutlu bir yapı yok
    • Teorik olarak LoRA kullanılabilir ama kapasite sınırları yüzünden tam bir ikame olması zor
      Bunun yerine girdi parçaları işlenirken MLP'nin tamamı eğitiliyor
  • Şaşırtıcılık temelli öğrenmenin modeli kullanıcı prompt'larına daha hassas biçimde hizalama (alignment) etkisi yaratıp yaratmayacağını merak ediyor