3 puan yazan GN⁺ 2025-10-10 | 1 yorum | WhatsApp'ta paylaş
  • Tiny Recursion Model (TRM), yaklaşık 7M parametreli küçük bir sinir ağı olmasına rağmen ARC-AGI-1'de %45, ARC-AGI-2'de %8 gibi yüksek performansa ulaşıyor
  • Büyük dil modeli olmasa bile özyinelemeli muhakeme yaklaşımı uygulanarak zor problemlerin çözülebileceğini kanıtlıyor
  • Bu model, mevcut Hierarchical Reasoning Model (HRM) yapısının karmaşık mimarisini sadeleştirerek yalnızca temel özyinelemeli muhakeme sürecini bırakıyor
  • TRM, insan beynini, karmaşık matematiksel teoremleri ya da hiyerarşik yapıları kullanmadan, küçük ve verimli bir modelle yanıt kalitesini sürekli iyileştiriyor
  • Makale, model boyutundan çok yeni yaklaşımın zor problemleri çözmede önemli olduğunu vurguluyor

Genel Bakış

  • Bu makalede Tiny Recursion Model (TRM) adlı yeni bir özyinelemeli muhakeme modeli öneriliyor
  • TRM, yalnızca 7M parametreli bir sinir ağı olmasına rağmen ARC-AGI-1'de %45, ARC-AGI-2'de %8 gibi anlamlı doğruluk sonuçları elde ediyor
  • Model, büyük şirketlerin yüz milyonlarca dolar harcayarak eğittiği dev modeller olmadan da, verimli özyinelemeli muhakeme sayesinde karmaşık problemlerinin yeterince çözülebileceğini deneysel olarak gösteriyor
  • Günümüzde sektörde LLM kullanımına aşırı odaklanılmış olsa da, TRM yeni muhakeme ve öğrenme yönelimlerinin önemli olduğuna işaret ediyor

Mevcut Çalışmalardan Farkı

  • Mevcut Hierarchical Reasoning Model (HRM) yaklaşımı, biyolojik mantığa, karmaşık hiyerarşik yapılara ve matematiksel teoremlere (sabit nokta teoremi gibi) büyük ölçüde dayanıyordu
  • TRM, bu karmaşıklığı ortadan kaldırıp yalnızca en sade özyinelemeli muhakemenin temel mekanizmasını bırakarak hem tasarımı hem uygulamayı sezgisel biçimde basitleştiriyor
  • İnsan beyninin yapısına ya da teorik bir arka plana ihtiyaç duymadan, özyinelemeli öz-yineleme süreciyle yanıt doğruluğunu sürekli artırmak temel fikir olarak öne çıkıyor

TRM Nasıl Çalışıyor

  • Girdi soru x, başlangıç yanıtı y ve gizli durum z gömülerek süreç başlatılıyor
  • En fazla K adet iyileştirme adımı boyunca şu iki aşama tekrar tekrar yürütülüyor:
    • i) Mevcut soru x, yanıt y ve gizli durum z'den hareketle, gizli z değeri n kez yinelemeli olarak güncelleniyor (özyinelemeli reasoning)
    • ii) Mevcut yanıt y ve yeni gizli z kullanılarak yanıt y yeniden güncelleniyor ve daha iyi bir yanıt üretiliyor
  • Bu özyinelemeli tekrar süreci, model parametrelerini artırmadan yanıt kalitesini sürekli iyileştirirken aşırı öğrenme riskini de azaltıyor

Sonuç

  • TRM çalışması, model boyutunun başarının mutlaka gerekli bir unsuru olmadığını gösteriyor
  • Yalnızca özyinelemeli muhakeme ilkesiyle bile küçük ölçekli bir sinir ağının büyük modellere yakın sonuçlar elde edebileceği deneylerle gösteriliyor
  • Gelecekteki yapay zeka araştırmaları için verimli ve yaratıcı yeni yönelimler geliştirmenin önemini vurguluyor
  • Daha fazla ayrıntı için makaleye bakabilirsiniz

1 yorum

 
GN⁺ 2025-10-10
Hacker News yorumu
  • Herkese ARC-AGI düzenleyicilerinin HRM hakkındaki blog yazısını dikkatle okumalarını şiddetle tavsiye ederim
    Aynı veri artırma / 'test time training' koşullarında, temel Transformer'ın da HRM'de bildirilen “muhteşem sonuçlara” neredeyse yaklaştığı görülüyor
    Bu makale de ARC-AGI konusunda kendisini benzer koşullarda karşılaştırıyor gibi görünüyor
    Ben de daha küçük modellerle üstün akıl yürütme performansı elde etmek isterim
    Ama önce ARC-AGI'nin neyi değerlendirdiğini, ticari LLM'leri karşılaştırmak için kullanılan genel kurulumun ne olduğunu ve HRM ya da bu makalede kullanılan özel kurulumun ne olduğunu anlamak gerekiyor
    Benchmark isimlendirmesi aşırı beklenti yaratmaya yatkın ve bunu hem HRM'de hem de bu makalede görüyorum

    • TRM makalesi söz konusu blog yazısını zaten ele alıyor
      HRM analiz yazısını fazla didiklemeye gerek yok; TRM, HRM'ye kıyasla daha ayrışmış bir yapıya sahip olduğu için ablation yapmak çok daha kolay
      Bence arcprize HRM blogunun asıl değeri, ablation testlerinin önemini vurgulamasında yatıyor
      ARC-AGI tüm modeller için bir meydan okuma olarak tasarlanmıştı
      Bunu çözmek için LLM düzeyinde büyük dil modeli akıl yürütmesi gerektiği varsayılmıştı ama bu bir yanlış anlaşılma gibi görünüyor
      Sormak istediğim şey şu: HRM ve TRM, ARC-AGI örneklerinin küçük veri kümeleri üzerinde özel olarak eğitilirken LLM'ler böyle eğitilmiyor mu?
      Yoksa vurgulanan fark tam olarak nedir, onu merak ediyorum
  • Bu daha çok “temel Transformer”dan ziyade “tekrarlayan yapıya sahip Transformer benzeri bir mimari”
    Bu yaklaşım hâlâ ilginç bir deney konusu
    Belirgin avantajları var ama gerçekten daha iyi bir Transformer olduğunu düşünmüyorum
    Şu anda gördüğü kadar aşırı ilgiyi hak ettiğinden emin değilim

  • Bunu görünce yine Finite Impulse Response (FIR) filtreleri (mevcut LLM'ler) ile Infinite Impulse Response (IIR) filtreleri (özyinelemeli modeller) arasındaki benzerlik aklıma geldi
    Harika ya da özgün bir benzetme değil ama FIR'de benzer kesim özellikleri elde etmek için IIR'ye kıyasla çok daha fazla katsayı gerekir
    Örneğin window design method ile bir IIR, FIR'a dönüştürülebilir; bu durumda özyinelemeli yapı açılarak sonlu bir derinlikte durdurulur
    Benzer şekilde, TRM açıldığında geleneksel LLM mimarisindeki attention+ff bloklarının, yalnızca global feedback çıkarılmış tekrarından oluşan bir yapı haline geliyor
    Üstelik TRM, gerçek IIR'lerin aksine sonlu bir kesim frekansı uyguluyor; dolayısıyla yapısal olarak FIR/LLM'e daha yakın görünüyor
    TRM'yi bu şekilde açılmış benzer bir yapıyla karşılaştırmak da ilginç olabilir
    Gerçi bu, uykusuzluktan doğan bir düşünce de olabilir

    • Deep Equilibrium Models'ı tanıtmak isterim
      Çıkış noktası, mevcut derin sıralı modellerin çoğunda gizli katmanların belirli bir sabit noktaya yakınsadığı gözlemi; burada ise kök bulma ile doğrudan o sabit nokta bulunuyor
      Bu yaklaşım, sonsuz derinlikte (weight-tied) feedforward ağ çalıştırmaya denktir ve implicit differentiation ile backpropagation da yapılabilir
      (arxiv makale bağlantısı)
      Deep equilibrium modellerin ilginç yanı, tek bir katmanla bile çok katmanlı bir derin öğrenme ağına denk hale gelebilmesidir
      Tek gereken özyineleme
      Görevin zorluğuna göre yineleme sayısını kendisi ayarlar
  • HRM'yi eğitim amaçlı uyguladım ve yol bulmada iyi performans aldım
    Sonra ablation deneyleri yaptım ve ARC-AGI ekibiyle aynı sonuca vardım (yani HRM mimarisinin kendisi aslında pek bir rol oynamıyor)
    Biraz hayal kırıklığı yarattı
    latent space reasoning içinde bir potansiyel olduğunu düşünüyorum
    uygulama deposu

    • Bence çok iyi bir çalışma, derleyip paylaştığın için teşekkürler
      Tekrar üretim ve deneyim paylaşımı gerçekten çok önemli
  • arXiv makalesinde açıklanan sonuçların gerçekten ölçeklenebilir olup olmadığını merak ediyorum
    Eğer bu sonuçlar gerçek uygulamalarda da geçerliyse kesinlikle devrim niteliğinde olur
    Öte yandan, eğer öyleyse şu an AI veri merkezi altyapısına yapılan astronomik yatırımların bir anda anlamsız hale gelebileceğini düşünmek de ilginç
    (Tabii uzun sürmez ama)

    • HRM'den söz ederken arcprize HRM analiz yazısına mutlaka bakmak gerekir
      Bu makale HRM'nin basitleştirilmiş bir sürümü gibi görünüyor ve doğrudan bu analiz yazısındaki ablation çalışmasından da yararlanmış gibi duruyor
      HRM'nin, genel Transformer LLM'ler gibi geniş uygulama alanına sahip bir yapı olmadığını da unutmamak önemli
      Şu ana kadar genel üretken yapay zeka görevlerinde HRM'nin işe yaradığını gösteren bir kanıt yok
      Makaleyi okuyorum ama bu yapının da HRM gibi benzer görevlere (örn. ARC-AGI gibi uzamsal akıl yürütme) uygun olduğu ve daha genel bir mimariye entegre edilmesi gerektiği izlenimini edindim

    • Bu durumda Jevons paradoksunun geçerli olacağını düşünüyorum
      AI / elektrik birim maliyeti düştükçe talep daha da artar

    • AI balonunun, AI teknolojisi fazla iyi hale gelip verimlilik aşırı yükseldiği için patlaması fikri kulağa makul geliyor

    • AI veri merkezi altyapı yatırımının anlamsızlaşabileceği yorumuna karşılık olarak
      GPU hesaplaması sadece metin çıkarımı için kullanılmıyor; özellikle video üretimi talebinin, bir atılım olsa bile bir süre daha doygunluğa ulaşması zor görünüyor

    • Eğer gerçekten böyle bir başarı gelirse, sektör bunu neredeyse anında benimseyip daha büyük ve daha güçlü modeller eğitmeye yönelir

  • “7M parametreyle TRM, ARC-AGI-1'de %45 ve ARC-AGI-2'de %8 test doğruluğu elde ediyor; bu da Deepseek R1, o3-mini, Gemini 2.5 Pro gibi çoğu LLM'den daha yüksek, üstelik parametre sayısı %0,01'den az”
    Gerçekten etkileyici
    Bu arada yapısal olarak Jeff Hawkins'in “On Intelligence” kitabında önerdiği Hierarchical Temporal Memory'ye benziyor gibi hissettiriyor
    (Elbette sparsity özelliği yok ama hiyerarşik/zamansal öğeler benzer)
    HTM wiki, Numenta

    • sparsity'nin olmaması, mevcut LLM yaklaşımının Aşil topuğu olabilir diye düşünüyorum
  • Özet
    Hierarchical Reasoning Model (HRM), iki küçük sinir ağını farklı hızlarda özyinelemeli olarak çalıştıran yenilikçi bir yaklaşım
    Biyolojik esinle geliştirildi ve küçük bir model (27M parametre) ile küçük ve az miktarda veriyle (yaklaşık 1000 örnek) Sudoku, Maze, ARC-AGI gibi zor bulmaca türlerinde büyük LLM'leri geride bıraktı
    Yapısı henüz tam olarak anlaşılmış değil ve performansı da optimal olmayabilir
    Biz ise çok daha basit bir özyinelemeli akıl yürütme yöntemi olan TRM'yi (Tiny Recursive Model) öneriyoruz; bu model, 2 katmanlı küçük bir ağla HRM'den çok daha üstün genelleme performansı gösteriyor
    Yalnızca 7M parametreyle büyük LLM'leri geride bırakıyor (ARC-AGI-1'de %45, ARC-AGI-2'de %8 test doğruluğu; parametre sayısı %0,01'den az)

    • Yalnızca 7M parametreyle büyük LLM'leri geçmesi oldukça çekici bir sonuç
      Ama bir yerde gizli bir sınırlama olup olmadığını merak ediyorum
  • ARC problemlerinde recurrence'ın iyi sonuç vermesi ilginç
    Eğer recurrence ile ilgileniyorsanız, bu modeli başka problemlere uygulayan şu makalelere de bakmak faydalı olabilir

  • Genel olarak transformer RNN türünü seviyorum
    Temelde EBM, enerji manzarasını öğrenip çözümün içine çekilmenizi sağlayan bir yapı
    Ayrık problemleri kademeli olarak convex hale getirerek çözüyor gibi hissettiriyor
    neural cellular automata, flow matching/diffusion gibi yaklaşımları hatırlatıyor
    Bu yöntem kontrol problemleri için de umut verici
    Durum uzayında sürekli dolaşıp her adımda yalnızca geçerli aksiyonları seçmek gibi

  • Bunun özünde neuralese Chain-of-Thought (CoT) ile aynı şey olup olmadığını merak ediyorum
    z/z_L açıkça reasoning embedding olarak adlandırılıyor ve bu, özyinelemeli süreç boyunca değişerek ya da korunarak çıktı embedding'ini (z_H/y) giderek rafine etme rolü oynuyor
    Bu resmen neuralese CoT / akıl yürütme zinciri değil mi?