Hiyerarşik Akıl Yürütme Modeli

(arxiv.org)

6 puan yazan GN⁺ 2025-07-28 | 1 yorum | WhatsApp'ta paylaş

Hiyerarşik Akıl Yürütme Modeli (Hierarchical Reasoning Model, HRM), yapay zekanın karmaşık hedef odaklı davranışları yürütme sürecinde mevcut LLM tabanlı Chain-of-Thought tekniklerinin sınırlamalarını (istikrarsız görev ayrıştırma, yüksek veri gereksinimi, gecikme sorunları) aşar
İnsan beyninin hiyerarşik işleme kavramından ilham alan HRM, üst düzey soyut planlamadan sorumlu bir yüksek seviye modül ile ayrıntılı işlemleri hızlıca işleyen bir düşük seviye modülden oluşan yeni bir döngüsel yapı sunar
HRM, yaklaşık 27 milyon parametre ve yalnızca 1.000 eğitim örneğiyle bile yüksek zorluktaki akıl yürütme problemlerinde olağanüstü performans gösterir
Ön eğitim veya Chain-of-Thought verisi olmadan karmaşık Sudoku ve büyük labirentlerde en iyi rota arama gibi görevlerde neredeyse kusursuz doğruluğa ulaşır
HRM, mevcut büyük modellere kıyasla daha yüksek verimlilik ve performans sergileyerek genel amaçlı hesaplama ve genel zekâ sistemleri için bir dönüm noktası olma potansiyeli gösterir

Genel Bakış

Yapay zekâ alanında akıl yürütme (reasoning), karmaşık hedef odaklı davranışların tasarlanması ve yürütülmesi sürecinde önemli bir problemdir. Mevcut büyük dil modelleri (LLM), çoğunlukla Chain-of-Thought (CoT) tekniğini kullanır; ancak bunun kırılgan görev ayrıştırma, yüksek veri ihtiyacı ve yüksek gecikme gibi sınırlamaları vardır.

İnsan beyninin hiyerarşik ve çok zaman ölçekli işleme yapısından hareketle Hierarchical Reasoning Model (HRM) önerilmiştir
HRM, birbirine bağlı iki döngüsel modülden (yüksek seviye/düşük seviye) oluşur ve tek bir ileri geçişte, ara süreç için açık denetim olmadan sıralı akıl yürütme gerçekleştirir
27 milyon parametreyle yalnızca 1.000 örnek kullanarak son teknoloji performans gösterir

Mevcut derin öğrenme ve LLM'lerin yapısal sınırlamaları

Derin öğrenme, ağ derinliğini artırarak ifade gücünü yükseltme yaklaşımıyla başladı; ancak gerçek Transformer tabanlı LLM'ler yapısal olarak sığdır ve derinlik bakımından sınırlara sahiptir
Sabit derinlikli Transformer yapıları, karmaşık mantıksal akıl yürütme veya algoritmik problemlerde hesaplama karmaşıklığı açısından temel kısıtlamalar taşır
Chain-of-Thought, insan tarafından tanımlanan dil tabanlı adım adım ayrıştırmaya dayanır; bu yüzden hata veya yanlış sıra nedeniyle tüm akıl yürütme kolayca çöker
CoT ayrıca çok veri, çok token üretimi ve yavaş çalışma sorunları doğurur

HRM'nin tasarım ilkeleri

İnsan beyninin hiyerarşik ve çok zaman ölçekli işleyişini taklit edecek şekilde tasarlanmıştır

Hiyerarşik işleme: Beyin, bilgiyi üst ve alt bölgeler arasında hiyerarşik ve zamansal olarak ayrı işler
Zaman ölçeği ayrımı: Üst bölgeler yavaş, alt bölgeler hızlı çalışarak verimli yönlendirme sağlar
Döngüsel bağlantılar: Yinelenen geri besleme ile iç temsiller hassas biçimde ayarlanır ve derin akıl yürütme mümkün olur

HRM model mimarisi

Girdi ağı, düşük seviye döngüsel modül, yüksek seviye döngüsel modül ve çıktı ağından oluşur
Girdi vektör olarak gömülür
Düşük seviye modül, kendi önceki durumu, yüksek seviyenin mevcut durumu ve girdiye dayanarak birden fazla kez güncellenir
Yüksek seviye modül, her cycle sonunda düşük seviye modülün son durumunu alır ve yalnızca bir kez güncellenir
Son aşamada tahmin, yüksek seviye modülün durumundan üretilir

Hiyerarşik yakınsama (hierarchical convergence) mekanizması

Mevcut RNN'ler çok hızlı yakınsar ve bu da ek hesaplamayı anlamsız hâle getirebilir
HRM'de düşük seviye RNN, her cycle içinde yerel denge noktasına kadar kararlı biçimde yakınsar; ardından yüksek seviye modül yeni bağlam sağlayarak düşük seviye modülün yeniden başlamasını sağlar
Hiyerarşik yakınsama yapısı sayesinde derin (çok adımlı) hesaplama mümkün olur ve yakınsama hızı da uygun biçimde kontrol edilir

1 adımlı yaklaşık gradyan eğitimi

BPTT (Backpropagation Through Time) kullanıldığında, çok sayıda adımdaki durumun saklanması gerektiğinden bellek yükü büyür
HRM, yüksek ve düşük seviye modüllerde yalnızca son durumla gradyanı yaklaşık hesaplayarak eğitim yaptığı için O(1) bellek kullanımı korunur ve biyolojik olarak daha gerçekçi bir yöntem uygulanabilir
Matematiksel olarak bu yaklaşım Deep Equilibrium Model (DEQ) ilkelerine dayanır

Derin denetim (deep supervision) ve uyarlanabilir hesaplama süresi (ACT)

Derin denetim

Periyodik geri bildirim sağlar; her forward pass (segment) için çıktı üretir ve her segmentin eğitim kaybını ayrı hesaplar
Bir sonraki segmente geçerken durum grafikten ayrılır (detach) ve böylece derin döngüsel yapının kararlılığı ve performansı artırılır

Uyarlanabilir hesaplama süresi (ACT)

İnsandaki otomatik ve kasıtlı düşünme geçişi ilkesini uygulayarak segment tekrar sayısını Q-learning ile öğrenmeye dayalı ve dinamik biçimde belirler
Q-head, her segment için halt/continue eylemlerinin Q-value değerlerini tahmin eder
Q-learning, tahmin doğruluğu ile en uygun durma noktasını birlikte dikkate alarak toplam kaybı hesaplar

Performans ve mimari özellikler

Sudoku-Extreme (9x9), büyük labirentler (30x30) gibi mevcut CoT tabanlı modellerin başarısız olduğu problemleri HRM yaklaşık 1.000 veriyle neredeyse kusursuz çözer
ARC-AGI (Abstraction and Reasoning Corpus) benchmark'ında 27M parametreyle %40,3 performans elde eder (CoT tabanlı o3-mini-high %34,5, Claude 3.7 8K %21,2)
İnference aşamasında yalnızca hesaplama adımı sayısını artırarak ek performans artışı sağlanabilir; böylece mimariye ek değişiklik veya yeniden eğitim olmadan hesaplama kaynakları değerlendirilebilir
Reklam
HRM, iç yapısında Transformer tabanlı sequence-to-sequence mimariyi kullanır ve
- embedding katmanından sonra hem düşük hem yüksek seviye modüllerde encoder-only Transformer blokları kullanır
- güncel LLM özelliklerini uygular (Rotary Positional Encoding, Gated Linear Units, RMSNorm vb.)
- parametrelerde truncated LeCun Normal başlatma yöntemi, Adam-atan2 optimizer ve sabit learning rate kullanır

Sonuç

HRM, biyolojik esinli hiyerarşik döngüsel yapı ve verimli, derin öğrenme yöntemiyle az veri ve az parametreyle bile mevcut yaklaşımlara kıyasla üstün genel akıl yürütme yeteneği gösterir
Derin öğrenme/LLM'lerin derinlik sınırlarını aşan genel amaçlı hesaplama ve zekâ sistemlerine doğru gelişim potansiyelini gösteren önemli bir örnektir

1 yorum

GN⁺ 2025-07-28

Hacker News görüşleri

Özeti ve giriş bölümünü kabaca gözden geçirdiğimde, hiyerarşik akıl yürütme (HRM) modelinin sonuçları gerçekten şaşırtıcı görünüyor
- Yalnızca 1.000 giriş-çıkış örneği kullanmasına ve ön eğitim ya da Chain-of-Thought (CoT) denetimi olmamasına rağmen, HRM'nin şimdiye kadarki en gelişmiş LLM'lerin bile başa çıkamadığı problemleri çözmesi etkileyici
- Örneğin, karmaşık Sudoku (Extreme Full) ve 30x30 labirentte en iyi yol bulma görevlerinde neredeyse kusursuza yakın doğruluk elde ediyor (CoT yaklaşımı burada %0 doğrulukta kalıyor)
- Abstraction and Reasoning Corpus (ARC) AGI challenge'da da HRM, 27M parametre ve 30x30 grid (900 token) ile %40,3 performans elde ederek çok daha büyük modelleri (o3-mini-high, Claude 3.7 8K vb.) geride bırakıyor
- Bu makaleyi dikkatlice okumayı düşünüyorum
27M parametreli bir modelin yalnızca 1.000 veri noktasıyla 'sıfırdan' eğitildiği iddiası oldukça şüpheli görünüyor
- Ayrıca neden aynı koşullarda (aynı veri hazırlığıyla) eğitilmiş diğer modellerle karşılaştırmadıklarını anlamıyorum
- Bunun yerine yalnızca genel amaçlı harici LLM'lerle kıyaslıyorlar; oysa LLM'ler bu 1.000 örneği eğitimde hiç kullanmamış olabilir
- Bu yaklaşım bende bir miktar overfit hissi bırakıyor
Evet!
- HRM, birbirine bağımlı iki döngüsel modül kullanıyor (üst modül: soyut ve yavaş planlama, alt modül: hızlı ve ayrıntılı hesaplama)
- Bu yapı sayesinde HRM, az sayıda parametreyle (27 milyon) ve küçük bir veri kümesiyle (~1.000 örnek) bile derin bir hesaplama kapasitesine sahip oluyor
- HRM, zor benchmark'larda (Extreme Sudoku, Maze-Hard, ARC-AGI) güncel CoT modellerini geride bırakıyor
- Örneğin Sudoku'da %96 doğruluk, ARC-AGI-2'de ise %40,3 performansla Claude 3.7, DeepSeek R1 gibi büyük modelleri de geçiyor
- Bu sonuçların nasıl çıktığını açıklamak gerekiyor... sanırım bunu bilgisayarda bizzat çalıştırmam gerekecek
"T adımının ardından üst modül (H-modül), alt modülün sonuç durumunu alıp güncelleme yapıyor; bu sırada alt modülün hesaplama yolunu yeniden başlatarak yeni bir yakınsama aşaması başlatıyor"
- Alt RNN hesaplamayı bitirdiğinde üst modül sonucu değerlendiriyor, alt RNN'e yeni bir bağlam veriyor ve döngüyü tekrarlıyor
- Alt RNN tekrarlı olarak backpropagation eğitimi yürütüyor, üst modül ise daha iyi bir çıktı elde edilene kadar periyodik olarak devreye girip ayarlama yapıyor
- "Nörobilimsel kanıtlar, bu tür bilişsel modların prefrontal korteks, default mode network gibi aynı sinir devrelerini paylaştığını gösteriyor. Yani beyin, görevin karmaşıklığına ve ödül olasılığına göre bu devrelerin 'çalışma süresini' dinamik biçimde ayarlıyor"
- Yazarlar, beynin bu mekanizmasından esinlenen bir 'adaptive halting' stratejisini HRM'ye eklemiş; yani 'hızlı/yavaş düşünme' stratejisini uyguluyorlar
- Başka bir deyişle, görevin zorluğuna ve verilen veriye göre hesaplama kaynağı kullanımını otomatik ayarlayan bir scheduler bu
- Makalenin çeşitli yerlerinde gerçek beyinle kurulan benzerliklere atıf yapılmasını gerçekten beğendim
- Bence AGI ancak bu tür ilkel primitive'leri aşırı karmaşıklık içinde birleştirerek ve iş birliği, rekabet, iletişim, eşzamanlılık ve çok sayıda uzmanlaşmış 'modül' kullanarak mümkün olabilir
- İnsan beyni de bilişsel işlevlere evrimsel olarak ulaşabilmek için muhtemelen böyle çalışmak zorundaydı; yavaş ve düşük güçlü biyolojik doku için tek çözümün bu olduğunu fark ediyorum
hlm/llm yapı ayrımı meselesini okur okumaz aklıma insan beyninin yapısı geldi
Şüpheci bir bakış açısına ihtiyaç olduğunu söylüyor
- Özellikle backpropagation'ı dolanma fikri gibi noktalar oldukça ilginç
- Ama henüz peer review'dan geçmemiş gibi görünüyor; sonuçlar bölümünde de değerlendirme yöntemi yeterince somut değil ve sayısal bilgiler yalnızca ana figürde yer alıyor
- Benchmark'lar (ARC2) lider tablosu ile gerçek rakamlar da uyuşmuyor (şu anda üst sıralar %19 civarındayken HRM yaklaşık %5 seviyesinde)
- https://www.kaggle.com/competitions/arc-prize-2025/leaderboard bağlantısından doğrudan kontrol edebilirsiniz
Yazarların kodu https://github.com/sapientinc/HRM adresinde açıklandı
- AI/ML alanında, çalışan kodla birlikte gelen bir preprint makale, resmî peer review'dan geçmiş bir makaleden çok daha değerli görülür
- Preprint'ler herkes tarafından doğrulanabilir ve yeniden üretilebilir; buna karşılık standart peer review, son derece az sayıdaki meşgul (hatta çoğu zaman düzgün ücret bile almayan) hakeme dayanır
- Yazarların iddiası doğruysa zaten zamanla doğal olarak kabul görecektir, değilse unutulup gidecektir
- Pratikte bu, açık kaynak tarzı dağıtık ve küresel bir doğrulama sürecidir; kusurlu olabilir ama geleneksel makale değerlendirmesinden çok daha etkilidir
Makine öğrenimi makalelerinde sağlıklı bir şüphecilik şart
- Makale sayısı arttıkça geleneksel peer review etkisizleşiyor
- Reviewer'ların gerçekte konu alanında yeterli uzmanlığa sahip olmaması ya da öğrenci olması da sık görülen bir durum
- Asıl peer review, başka uzmanların arXiv gibi yerlerde makaleyi uygulayıp sonuçları bağımsız biçimde yeniden üretmesi ve bunu sonraki makalelerde referans göstermesi sürecidir
- Bu yorum dizisinin kendisi de fiilen bir peer review
Yeniden üretim deneyi yapıp sonuçları karşılaştırarak şüpheci doğrulama yapmak en iyisi bence
- Gelecek ay 10 günlük bir tatilim var; kaynak kodu, veri setlerini ve yazarların neleri yayımladığını inceleyip kendim yeniden üretmeyi planlıyorum
Henüz peer review yapılmamış olmasını tek başına ölçü alıp yargıya varmak aceleci bir tavır
- mamba1, mamba2 makaleleri de ilk çıktığında peer review'dan geçmemişti
- Yine de güçlü iddiaların güçlü kanıt gerektirdiğine katılıyorum ve şu anda ben de sonucu yerelde yeniden üretmeye çalışıyorum
Makale henüz yeni yayımlanmışken peer review beklemek, süreci pek bilmemekten kaynaklanıyor gibi geliyor
- Bir araştırmayı peer review'a sokabilmek için önce onu 'yayımlamak' gerekir
Ben bir bilişsel psikolog olarak, genel olarak yapay zekada böyle bir yönelime uzun zamandır ihtiyaç olduğunu düşünüyordum
- Fuzzy Trace Theory'ye (bulanık iz kuramı) bakın[1]; bellek, kelime düzeyindeki ayrıntılardan özetlere (gist) kadar farklı düzeylerde temsiller üretip bunları birleştiren ve geri çağıran bir yapıdır
- Özet temsiller ile ayrıntılı bilginin birleşimi güçlü genelleme ve esnek hatırlama yolları sağlar
- [1] https://pmc.ncbi.nlm.nih.gov/articles/PMC4979567/
Doğru anladıysam, HRM 1.000 Sudoku (bulmaca, çözüm) çiftine bakarak kuralları kendi başına öğreniyor
- Sonrasında daha önce görmediği yeni bulmacaları %55 doğrulukla çözebiliyor
- Bir milyon örnekle eğitilirse neredeyse kusursuza yaklaşıyor
- Hiç ön eğitim olmaması şaşırtıcı
- Öte yandan AlphaZero kuralları (satranç/go) yerleşik olarak alıyor ve yalnızca stratejiyi öğreniyor, fakat HRM kuralları da kendisi öğreniyor
- Bunu doğrudan GitHub deposundan kontrol etmeyi planlıyorum
- AlphaZero kuralları yerleşik olarak kullanıyor, ama MuZero ve sonraki modeller bunu yapmıyor
  - MuZero, AlphaZero'dan daha iyi performans gösteriyor; EfficientZero ise gereken eğitim miktarını da azaltıyor
  - Atari oyunları gibi çeşitli ortamlarda da çok başarılı
- Kaynak kodla bizzat denediğimde gördüğüm şu oldu:
  - Bilimsel yeniden üretilebilirlik için kütüphane sürümlerinin mutlaka belirtilmesini isterdim (pyproject.toml daha da iyi olurdu)
  - 1.000 Sudoku örneği, aslında elde yazılmış bir permütasyon algoritmasıyla veri artırmaya tabi tutuluyor ve fiilen yaklaşık bir milyonluk bir veri kümesine dönüşüyor
    (yani gerçekte 1.000 değil)
HRM modelinin yakında MoE (Mixture of Experts) ile birleşmesini hem bekliyorum hem de biraz bundan çekiniyorum
- LLM'leri daha güçlü hâle getirme yönündeki ekonomik baskı çok büyük; bu yüzden böyle bir birleşimin aylar içinde bile gerçekleşebileceğini düşünüyorum
- Makale yalnızca sudoku çözme gibi bulmaca problemlerini ele alıyor; soru-cevap ya da LLM'lerin başlıca kullanım alanlarına girmiyor
- Yeni nesil LLM'lerle nasıl birleştirilebileceğini tartışmamış olmaları biraz hayal kırıklığı yarattı
- MoE, kavram kümeleriyle ilgili bir fikir ama bundan sonra kavramların derinliğini, hiyerarşi sayısını ve öğrenme süresini de latent space'in parçası hâline getirmek gerekebilir; bu da matematik kitabı okurken kullandığımız okuma tarzıyla kısa bir haber okurken kullandığımız tarzın farklı olmasına benziyor
- HRM, az sayıda kuralın karmaşık biçimde iç içe geçtiği bulmacalar için tasarlanmış
  - Kural sayısı az olduğu için küçük bir modelle öğrenilebiliyor, model küçük olduğu için de tüm etkileşimleri işlemek üzere tekrar tekrar çalıştırılabiliyor
  - Dil modellemesinde ise çok sayıda ifade kalıbını ve bunların ilişkilerini saklamak gerekiyor; bu nedenle benzer şekilde küçük bir model burada yeterli olmayabilir
  - Neyse ki dil tarafında, birkaç hesaplama adımıyla bile çoğu zaman işe yarar sonuçlar alınabiliyor
  - LLM kadar büyük bir modeli HRM tarzı döngüye sokarsanız hız o kadar düşer ki pratik kullanım zorlaşır
  - Yine de LLM gövdesi + küçük bir HRM'yi birleştirip yalnızca constraint-satisfaction görevlerini ayrı ele almak mümkün olabilir diye düşünülebilir
- Özellikle Sudoku dışındaki uygulamalar ya da sınırlamalar konusunda pek tartışma olmaması bende de biraz kuşku uyandırıyor
Makaleye göz atınca, MoE LLM sistemlerinin de (otoregresif, diffusion, energy-based fark etmeksizin) HRM yapısıyla hiyerarşik biçimde iç içe geçirilebileceğini düşündüm
- Bunları birleştirip verimlilik ve kalite için yeni benchmark'lar da tasarlanabilir
Nörobilimden ilham almış olmalarını takdir ediyorum; genel olarak makalede özellikle sorunlu görünen bir şey yok
- Kendim birebir çoğaltma deneyi yapmadım ama yazarların yaptığı şey, en azından bir miktar genel amaçlı olabilecek bir constraint-satisfaction çözücüsü olabilir
- Az sayıda örnekten yalnızca çözümleri değil, kısıt kurallarını da öğrenen bir sistemse, bu tek başına bile yeterince ilginç
- Yine de CoT modelleriyle doğrudan karşılaştırma bana çok ikna edici gelmedi
- CoT modelleri prensipte herhangi bir karmaşık problemi çözebilir, ancak HRM her özel bulmaca için ayrı eğitim gerektiriyor ve genellik iddiası burada zayıf kalıyor
- Örneğin satranç motoru Stockfish, satrançta bir LLM'den daha iyi diye Stockfish'in daha 'zeki' olduğunu söyleyemeyiz gibi
- Güzel bir fikir ama makalede hafif bir pazarlama abartısı sezdim
- Katılıyorum! Aslında bu tek başına bile muazzam bir başarı
  - Aşırı hype'ı frenlemek gerek ama bu kadar küçük bir modelle böyle sonuçlar almak yine de şaşırtıcı
  - Belirli problemler için özelleştirilmiş modeller hem daha verimli hem de daha güvenilir olabildiğinden, sırf genel amaçlı olsun diye verimsiz bir yapıyı dayatmak gerekmiyor
- CoT modellerinin özünde her karmaşık görevi çözebileceğini söylemiştin; bunun dayanağını merak ediyorum
  - Bunun için matematiksel bir kanıt olup olmadığından da emin değilim
  - Ben şahsen CoT'nin, mevcut LLM'lerin sınırlamalarını dolaşmak için kullanılan bir tür hile olduğunu düşünüyorum
Eğer bu makale doğruysa etkisi çok büyük olur; bu yüzden dikkatle izlemeye devam ediyorum
- Temel fikir kulağa makul geliyor ama üçüncü taraf doğrulamaları gelene kadar temkinli olmak istiyorum
- Bunu bizzat gerçek iş akışlarında da doğrulamak isterim