Az daha fazladır: küçük ağlarla özyinelemeli muhakeme gerçekleştirmek

(alexiajm.github.io)

3 puan yazan GN⁺ 2025-10-10 | 1 yorum | WhatsApp'ta paylaş

Tiny Recursion Model (TRM), yaklaşık 7M parametreli küçük bir sinir ağı olmasına rağmen ARC-AGI-1'de %45, ARC-AGI-2'de %8 gibi yüksek performansa ulaşıyor
Büyük dil modeli olmasa bile özyinelemeli muhakeme yaklaşımı uygulanarak zor problemlerin çözülebileceğini kanıtlıyor
Bu model, mevcut Hierarchical Reasoning Model (HRM) yapısının karmaşık mimarisini sadeleştirerek yalnızca temel özyinelemeli muhakeme sürecini bırakıyor
TRM, insan beynini, karmaşık matematiksel teoremleri ya da hiyerarşik yapıları kullanmadan, küçük ve verimli bir modelle yanıt kalitesini sürekli iyileştiriyor
Makale, model boyutundan çok yeni yaklaşımın zor problemleri çözmede önemli olduğunu vurguluyor

Genel Bakış

Bu makalede Tiny Recursion Model (TRM) adlı yeni bir özyinelemeli muhakeme modeli öneriliyor
TRM, yalnızca 7M parametreli bir sinir ağı olmasına rağmen ARC-AGI-1'de %45, ARC-AGI-2'de %8 gibi anlamlı doğruluk sonuçları elde ediyor
Model, büyük şirketlerin yüz milyonlarca dolar harcayarak eğittiği dev modeller olmadan da, verimli özyinelemeli muhakeme sayesinde karmaşık problemlerinin yeterince çözülebileceğini deneysel olarak gösteriyor
Günümüzde sektörde LLM kullanımına aşırı odaklanılmış olsa da, TRM yeni muhakeme ve öğrenme yönelimlerinin önemli olduğuna işaret ediyor

Mevcut Çalışmalardan Farkı

Mevcut Hierarchical Reasoning Model (HRM) yaklaşımı, biyolojik mantığa, karmaşık hiyerarşik yapılara ve matematiksel teoremlere (sabit nokta teoremi gibi) büyük ölçüde dayanıyordu
TRM, bu karmaşıklığı ortadan kaldırıp yalnızca en sade özyinelemeli muhakemenin temel mekanizmasını bırakarak hem tasarımı hem uygulamayı sezgisel biçimde basitleştiriyor
İnsan beyninin yapısına ya da teorik bir arka plana ihtiyaç duymadan, özyinelemeli öz-yineleme süreciyle yanıt doğruluğunu sürekli artırmak temel fikir olarak öne çıkıyor

TRM Nasıl Çalışıyor

Girdi soru x, başlangıç yanıtı y ve gizli durum z gömülerek süreç başlatılıyor
En fazla K adet iyileştirme adımı boyunca şu iki aşama tekrar tekrar yürütülüyor:
- i) Mevcut soru x, yanıt y ve gizli durum z'den hareketle, gizli z değeri n kez yinelemeli olarak güncelleniyor (özyinelemeli reasoning)
- ii) Mevcut yanıt y ve yeni gizli z kullanılarak yanıt y yeniden güncelleniyor ve daha iyi bir yanıt üretiliyor
Bu özyinelemeli tekrar süreci, model parametrelerini artırmadan yanıt kalitesini sürekli iyileştirirken aşırı öğrenme riskini de azaltıyor

Sonuç

TRM çalışması, model boyutunun başarının mutlaka gerekli bir unsuru olmadığını gösteriyor
Yalnızca özyinelemeli muhakeme ilkesiyle bile küçük ölçekli bir sinir ağının büyük modellere yakın sonuçlar elde edebileceği deneylerle gösteriliyor
Gelecekteki yapay zeka araştırmaları için verimli ve yaratıcı yeni yönelimler geliştirmenin önemini vurguluyor
Daha fazla ayrıntı için makaleye bakabilirsiniz

1 yorum

GN⁺ 2025-10-10

Hacker News yorumu

Herkese ARC-AGI düzenleyicilerinin HRM hakkındaki blog yazısını dikkatle okumalarını şiddetle tavsiye ederim
Aynı veri artırma / 'test time training' koşullarında, temel Transformer'ın da HRM'de bildirilen “muhteşem sonuçlara” neredeyse yaklaştığı görülüyor
Bu makale de ARC-AGI konusunda kendisini benzer koşullarda karşılaştırıyor gibi görünüyor
Ben de daha küçük modellerle üstün akıl yürütme performansı elde etmek isterim
Ama önce ARC-AGI'nin neyi değerlendirdiğini, ticari LLM'leri karşılaştırmak için kullanılan genel kurulumun ne olduğunu ve HRM ya da bu makalede kullanılan özel kurulumun ne olduğunu anlamak gerekiyor
Benchmark isimlendirmesi aşırı beklenti yaratmaya yatkın ve bunu hem HRM'de hem de bu makalede görüyorum
- TRM makalesi söz konusu blog yazısını zaten ele alıyor
  HRM analiz yazısını fazla didiklemeye gerek yok; TRM, HRM'ye kıyasla daha ayrışmış bir yapıya sahip olduğu için ablation yapmak çok daha kolay
  Bence arcprize HRM blogunun asıl değeri, ablation testlerinin önemini vurgulamasında yatıyor
  ARC-AGI tüm modeller için bir meydan okuma olarak tasarlanmıştı
  Bunu çözmek için LLM düzeyinde büyük dil modeli akıl yürütmesi gerektiği varsayılmıştı ama bu bir yanlış anlaşılma gibi görünüyor
  Sormak istediğim şey şu: HRM ve TRM, ARC-AGI örneklerinin küçük veri kümeleri üzerinde özel olarak eğitilirken LLM'ler böyle eğitilmiyor mu?
  Yoksa vurgulanan fark tam olarak nedir, onu merak ediyorum
Bu daha çok “temel Transformer”dan ziyade “tekrarlayan yapıya sahip Transformer benzeri bir mimari”
Bu yaklaşım hâlâ ilginç bir deney konusu
Belirgin avantajları var ama gerçekten daha iyi bir Transformer olduğunu düşünmüyorum
Şu anda gördüğü kadar aşırı ilgiyi hak ettiğinden emin değilim
Bunu görünce yine Finite Impulse Response (FIR) filtreleri (mevcut LLM'ler) ile Infinite Impulse Response (IIR) filtreleri (özyinelemeli modeller) arasındaki benzerlik aklıma geldi
Harika ya da özgün bir benzetme değil ama FIR'de benzer kesim özellikleri elde etmek için IIR'ye kıyasla çok daha fazla katsayı gerekir
Örneğin window design method ile bir IIR, FIR'a dönüştürülebilir; bu durumda özyinelemeli yapı açılarak sonlu bir derinlikte durdurulur
Benzer şekilde, TRM açıldığında geleneksel LLM mimarisindeki attention+ff bloklarının, yalnızca global feedback çıkarılmış tekrarından oluşan bir yapı haline geliyor
Üstelik TRM, gerçek IIR'lerin aksine sonlu bir kesim frekansı uyguluyor; dolayısıyla yapısal olarak FIR/LLM'e daha yakın görünüyor
TRM'yi bu şekilde açılmış benzer bir yapıyla karşılaştırmak da ilginç olabilir
Gerçi bu, uykusuzluktan doğan bir düşünce de olabilir
- Deep Equilibrium Models'ı tanıtmak isterim
  Çıkış noktası, mevcut derin sıralı modellerin çoğunda gizli katmanların belirli bir sabit noktaya yakınsadığı gözlemi; burada ise kök bulma ile doğrudan o sabit nokta bulunuyor
  Bu yaklaşım, sonsuz derinlikte (weight-tied) feedforward ağ çalıştırmaya denktir ve implicit differentiation ile backpropagation da yapılabilir
  (arxiv makale bağlantısı)
  Deep equilibrium modellerin ilginç yanı, tek bir katmanla bile çok katmanlı bir derin öğrenme ağına denk hale gelebilmesidir
  Tek gereken özyineleme
  Görevin zorluğuna göre yineleme sayısını kendisi ayarlar
HRM'yi eğitim amaçlı uyguladım ve yol bulmada iyi performans aldım
Sonra ablation deneyleri yaptım ve ARC-AGI ekibiyle aynı sonuca vardım (yani HRM mimarisinin kendisi aslında pek bir rol oynamıyor)
Biraz hayal kırıklığı yarattı
latent space reasoning içinde bir potansiyel olduğunu düşünüyorum
uygulama deposu
- Bence çok iyi bir çalışma, derleyip paylaştığın için teşekkürler
  Tekrar üretim ve deneyim paylaşımı gerçekten çok önemli
arXiv makalesinde açıklanan sonuçların gerçekten ölçeklenebilir olup olmadığını merak ediyorum
Eğer bu sonuçlar gerçek uygulamalarda da geçerliyse kesinlikle devrim niteliğinde olur
Öte yandan, eğer öyleyse şu an AI veri merkezi altyapısına yapılan astronomik yatırımların bir anda anlamsız hale gelebileceğini düşünmek de ilginç
(Tabii uzun sürmez ama)
- HRM'den söz ederken arcprize HRM analiz yazısına mutlaka bakmak gerekir
  Bu makale HRM'nin basitleştirilmiş bir sürümü gibi görünüyor ve doğrudan bu analiz yazısındaki ablation çalışmasından da yararlanmış gibi duruyor
  HRM'nin, genel Transformer LLM'ler gibi geniş uygulama alanına sahip bir yapı olmadığını da unutmamak önemli
  Şu ana kadar genel üretken yapay zeka görevlerinde HRM'nin işe yaradığını gösteren bir kanıt yok
  Makaleyi okuyorum ama bu yapının da HRM gibi benzer görevlere (örn. ARC-AGI gibi uzamsal akıl yürütme) uygun olduğu ve daha genel bir mimariye entegre edilmesi gerektiği izlenimini edindim
- Bu durumda Jevons paradoksunun geçerli olacağını düşünüyorum
  AI / elektrik birim maliyeti düştükçe talep daha da artar
- AI balonunun, AI teknolojisi fazla iyi hale gelip verimlilik aşırı yükseldiği için patlaması fikri kulağa makul geliyor
- AI veri merkezi altyapı yatırımının anlamsızlaşabileceği yorumuna karşılık olarak
  GPU hesaplaması sadece metin çıkarımı için kullanılmıyor; özellikle video üretimi talebinin, bir atılım olsa bile bir süre daha doygunluğa ulaşması zor görünüyor
- Eğer gerçekten böyle bir başarı gelirse, sektör bunu neredeyse anında benimseyip daha büyük ve daha güçlü modeller eğitmeye yönelir
“7M parametreyle TRM, ARC-AGI-1'de %45 ve ARC-AGI-2'de %8 test doğruluğu elde ediyor; bu da Deepseek R1, o3-mini, Gemini 2.5 Pro gibi çoğu LLM'den daha yüksek, üstelik parametre sayısı %0,01'den az”
Gerçekten etkileyici
Bu arada yapısal olarak Jeff Hawkins'in “On Intelligence” kitabında önerdiği Hierarchical Temporal Memory'ye benziyor gibi hissettiriyor
(Elbette sparsity özelliği yok ama hiyerarşik/zamansal öğeler benzer)
HTM wiki, Numenta
- sparsity'nin olmaması, mevcut LLM yaklaşımının Aşil topuğu olabilir diye düşünüyorum
Özet
Hierarchical Reasoning Model (HRM), iki küçük sinir ağını farklı hızlarda özyinelemeli olarak çalıştıran yenilikçi bir yaklaşım
Biyolojik esinle geliştirildi ve küçük bir model (27M parametre) ile küçük ve az miktarda veriyle (yaklaşık 1000 örnek) Sudoku, Maze, ARC-AGI gibi zor bulmaca türlerinde büyük LLM'leri geride bıraktı
Yapısı henüz tam olarak anlaşılmış değil ve performansı da optimal olmayabilir
Biz ise çok daha basit bir özyinelemeli akıl yürütme yöntemi olan TRM'yi (Tiny Recursive Model) öneriyoruz; bu model, 2 katmanlı küçük bir ağla HRM'den çok daha üstün genelleme performansı gösteriyor
Yalnızca 7M parametreyle büyük LLM'leri geride bırakıyor (ARC-AGI-1'de %45, ARC-AGI-2'de %8 test doğruluğu; parametre sayısı %0,01'den az)
- Yalnızca 7M parametreyle büyük LLM'leri geçmesi oldukça çekici bir sonuç
  Ama bir yerde gizli bir sınırlama olup olmadığını merak ediyorum
ARC problemlerinde recurrence'ın iyi sonuç vermesi ilginç
Eğer recurrence ile ilgileniyorsanız, bu modeli başka problemlere uygulayan şu makalelere de bakmak faydalı olabilir
- Language modeling: Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
- Bulmaca çözme: A Simple Loss Function for Convergent Algorithm Synthesis using RNNs
- end-to-end algoritma sentezi: End-to-end Algorithm Synthesis with Recurrent Networks, Can You Learn an Algorithm? Generalizing from Easy to Hard Problems with Recurrent Networks
- genel yaklaşımlar: Think Again Networks and the Delta Loss, Universal Transformers, Adaptive Computation Time for Recurrent Neural Networks
Genel olarak transformer RNN türünü seviyorum
Temelde EBM, enerji manzarasını öğrenip çözümün içine çekilmenizi sağlayan bir yapı
Ayrık problemleri kademeli olarak convex hale getirerek çözüyor gibi hissettiriyor
neural cellular automata, flow matching/diffusion gibi yaklaşımları hatırlatıyor
Bu yöntem kontrol problemleri için de umut verici
Durum uzayında sürekli dolaşıp her adımda yalnızca geçerli aksiyonları seçmek gibi
Bunun özünde neuralese Chain-of-Thought (CoT) ile aynı şey olup olmadığını merak ediyorum
z/z_L açıkça reasoning embedding olarak adlandırılıyor ve bu, özyinelemeli süreç boyunca değişerek ya da korunarak çıktı embedding'ini (z_H/y) giderek rafine etme rolü oynuyor
Bu resmen neuralese CoT / akıl yürütme zinciri değil mi?

Az daha fazladır: küçük ağlarla özyinelemeli muhakeme gerçekleştirmek

Genel Bakış

Mevcut Çalışmalardan Farkı

TRM Nasıl Çalışıyor

Sonuç

İlgili okumalar

1 yorum

Hacker News yorumu