Hiyerarşik Akıl Yürütme Modeli
(arxiv.org)- Hiyerarşik Akıl Yürütme Modeli (Hierarchical Reasoning Model, HRM), yapay zekanın karmaşık hedef odaklı davranışları yürütme sürecinde mevcut LLM tabanlı Chain-of-Thought tekniklerinin sınırlamalarını (istikrarsız görev ayrıştırma, yüksek veri gereksinimi, gecikme sorunları) aşar
- İnsan beyninin hiyerarşik işleme kavramından ilham alan HRM, üst düzey soyut planlamadan sorumlu bir yüksek seviye modül ile ayrıntılı işlemleri hızlıca işleyen bir düşük seviye modülden oluşan yeni bir döngüsel yapı sunar
- HRM, yaklaşık 27 milyon parametre ve yalnızca 1.000 eğitim örneğiyle bile yüksek zorluktaki akıl yürütme problemlerinde olağanüstü performans gösterir
- Ön eğitim veya Chain-of-Thought verisi olmadan karmaşık Sudoku ve büyük labirentlerde en iyi rota arama gibi görevlerde neredeyse kusursuz doğruluğa ulaşır
- HRM, mevcut büyük modellere kıyasla daha yüksek verimlilik ve performans sergileyerek genel amaçlı hesaplama ve genel zekâ sistemleri için bir dönüm noktası olma potansiyeli gösterir
Genel Bakış
Yapay zekâ alanında akıl yürütme (reasoning), karmaşık hedef odaklı davranışların tasarlanması ve yürütülmesi sürecinde önemli bir problemdir. Mevcut büyük dil modelleri (LLM), çoğunlukla Chain-of-Thought (CoT) tekniğini kullanır; ancak bunun kırılgan görev ayrıştırma, yüksek veri ihtiyacı ve yüksek gecikme gibi sınırlamaları vardır.
- İnsan beyninin hiyerarşik ve çok zaman ölçekli işleme yapısından hareketle Hierarchical Reasoning Model (HRM) önerilmiştir
- HRM, birbirine bağlı iki döngüsel modülden (yüksek seviye/düşük seviye) oluşur ve tek bir ileri geçişte, ara süreç için açık denetim olmadan sıralı akıl yürütme gerçekleştirir
- 27 milyon parametreyle yalnızca 1.000 örnek kullanarak son teknoloji performans gösterir
Mevcut derin öğrenme ve LLM'lerin yapısal sınırlamaları
- Derin öğrenme, ağ derinliğini artırarak ifade gücünü yükseltme yaklaşımıyla başladı; ancak gerçek Transformer tabanlı LLM'ler yapısal olarak sığdır ve derinlik bakımından sınırlara sahiptir
- Sabit derinlikli Transformer yapıları, karmaşık mantıksal akıl yürütme veya algoritmik problemlerde hesaplama karmaşıklığı açısından temel kısıtlamalar taşır
- Chain-of-Thought, insan tarafından tanımlanan dil tabanlı adım adım ayrıştırmaya dayanır; bu yüzden hata veya yanlış sıra nedeniyle tüm akıl yürütme kolayca çöker
- CoT ayrıca çok veri, çok token üretimi ve yavaş çalışma sorunları doğurur
HRM'nin tasarım ilkeleri
İnsan beyninin hiyerarşik ve çok zaman ölçekli işleyişini taklit edecek şekilde tasarlanmıştır
- Hiyerarşik işleme: Beyin, bilgiyi üst ve alt bölgeler arasında hiyerarşik ve zamansal olarak ayrı işler
- Zaman ölçeği ayrımı: Üst bölgeler yavaş, alt bölgeler hızlı çalışarak verimli yönlendirme sağlar
- Döngüsel bağlantılar: Yinelenen geri besleme ile iç temsiller hassas biçimde ayarlanır ve derin akıl yürütme mümkün olur
HRM model mimarisi
- Girdi ağı, düşük seviye döngüsel modül, yüksek seviye döngüsel modül ve çıktı ağından oluşur
- Girdi vektör olarak gömülür
- Düşük seviye modül, kendi önceki durumu, yüksek seviyenin mevcut durumu ve girdiye dayanarak birden fazla kez güncellenir
- Yüksek seviye modül, her cycle sonunda düşük seviye modülün son durumunu alır ve yalnızca bir kez güncellenir
- Son aşamada tahmin, yüksek seviye modülün durumundan üretilir
Hiyerarşik yakınsama (hierarchical convergence) mekanizması
- Mevcut RNN'ler çok hızlı yakınsar ve bu da ek hesaplamayı anlamsız hâle getirebilir
- HRM'de düşük seviye RNN, her cycle içinde yerel denge noktasına kadar kararlı biçimde yakınsar; ardından yüksek seviye modül yeni bağlam sağlayarak düşük seviye modülün yeniden başlamasını sağlar
- Hiyerarşik yakınsama yapısı sayesinde derin (çok adımlı) hesaplama mümkün olur ve yakınsama hızı da uygun biçimde kontrol edilir
1 adımlı yaklaşık gradyan eğitimi
- BPTT (Backpropagation Through Time) kullanıldığında, çok sayıda adımdaki durumun saklanması gerektiğinden bellek yükü büyür
- HRM, yüksek ve düşük seviye modüllerde yalnızca son durumla gradyanı yaklaşık hesaplayarak eğitim yaptığı için O(1) bellek kullanımı korunur ve biyolojik olarak daha gerçekçi bir yöntem uygulanabilir
- Matematiksel olarak bu yaklaşım Deep Equilibrium Model (DEQ) ilkelerine dayanır
Derin denetim (deep supervision) ve uyarlanabilir hesaplama süresi (ACT)
Derin denetim
- Periyodik geri bildirim sağlar; her forward pass (segment) için çıktı üretir ve her segmentin eğitim kaybını ayrı hesaplar
- Bir sonraki segmente geçerken durum grafikten ayrılır (
detach) ve böylece derin döngüsel yapının kararlılığı ve performansı artırılır
Uyarlanabilir hesaplama süresi (ACT)
- İnsandaki otomatik ve kasıtlı düşünme geçişi ilkesini uygulayarak segment tekrar sayısını Q-learning ile öğrenmeye dayalı ve dinamik biçimde belirler
- Q-head, her segment için halt/continue eylemlerinin Q-value değerlerini tahmin eder
- Q-learning, tahmin doğruluğu ile en uygun durma noktasını birlikte dikkate alarak toplam kaybı hesaplar
Performans ve mimari özellikler
-
Sudoku-Extreme (9x9), büyük labirentler (30x30) gibi mevcut CoT tabanlı modellerin başarısız olduğu problemleri HRM yaklaşık 1.000 veriyle neredeyse kusursuz çözer
-
ARC-AGI (Abstraction and Reasoning Corpus) benchmark'ında 27M parametreyle %40,3 performans elde eder (CoT tabanlı o3-mini-high %34,5, Claude 3.7 8K %21,2)
-
İnference aşamasında yalnızca hesaplama adımı sayısını artırarak ek performans artışı sağlanabilir; böylece mimariye ek değişiklik veya yeniden eğitim olmadan hesaplama kaynakları değerlendirilebilir
-
HRM, iç yapısında Transformer tabanlı sequence-to-sequence mimariyi kullanır ve
- embedding katmanından sonra hem düşük hem yüksek seviye modüllerde encoder-only Transformer blokları kullanır
- güncel LLM özelliklerini uygular (Rotary Positional Encoding, Gated Linear Units, RMSNorm vb.)
- parametrelerde truncated LeCun Normal başlatma yöntemi, Adam-atan2 optimizer ve sabit learning rate kullanır
Sonuç
- HRM, biyolojik esinli hiyerarşik döngüsel yapı ve verimli, derin öğrenme yöntemiyle az veri ve az parametreyle bile mevcut yaklaşımlara kıyasla üstün genel akıl yürütme yeteneği gösterir
- Derin öğrenme/LLM'lerin derinlik sınırlarını aşan genel amaçlı hesaplama ve zekâ sistemlerine doğru gelişim potansiyelini gösteren önemli bir örnektir
1 yorum
Hacker News görüşleri
Özeti ve giriş bölümünü kabaca gözden geçirdiğimde, hiyerarşik akıl yürütme (HRM) modelinin sonuçları gerçekten şaşırtıcı görünüyor
o3-mini-high, Claude 3.7 8K vb.) geride bırakıyor27M parametreli bir modelin yalnızca 1.000 veri noktasıyla 'sıfırdan' eğitildiği iddiası oldukça şüpheli görünüyor
Evet!
"T adımının ardından üst modül (H-modül), alt modülün sonuç durumunu alıp güncelleme yapıyor; bu sırada alt modülün hesaplama yolunu yeniden başlatarak yeni bir yakınsama aşaması başlatıyor"
hlm/llm yapı ayrımı meselesini okur okumaz aklıma insan beyninin yapısı geldi
Şüpheci bir bakış açısına ihtiyaç olduğunu söylüyor
Yazarların kodu https://github.com/sapientinc/HRM adresinde açıklandı
Makine öğrenimi makalelerinde sağlıklı bir şüphecilik şart
Yeniden üretim deneyi yapıp sonuçları karşılaştırarak şüpheci doğrulama yapmak en iyisi bence
Henüz peer review yapılmamış olmasını tek başına ölçü alıp yargıya varmak aceleci bir tavır
mamba1,mamba2makaleleri de ilk çıktığında peer review'dan geçmemiştiMakale henüz yeni yayımlanmışken peer review beklemek, süreci pek bilmemekten kaynaklanıyor gibi geliyor
Ben bir bilişsel psikolog olarak, genel olarak yapay zekada böyle bir yönelime uzun zamandır ihtiyaç olduğunu düşünüyordum
Doğru anladıysam, HRM 1.000 Sudoku (bulmaca, çözüm) çiftine bakarak kuralları kendi başına öğreniyor
Sonrasında daha önce görmediği yeni bulmacaları %55 doğrulukla çözebiliyor
Bir milyon örnekle eğitilirse neredeyse kusursuza yaklaşıyor
Hiç ön eğitim olmaması şaşırtıcı
Öte yandan AlphaZero kuralları (satranç/go) yerleşik olarak alıyor ve yalnızca stratejiyi öğreniyor, fakat HRM kuralları da kendisi öğreniyor
Bunu doğrudan GitHub deposundan kontrol etmeyi planlıyorum
AlphaZero kuralları yerleşik olarak kullanıyor, ama MuZero ve sonraki modeller bunu yapmıyor
Kaynak kodla bizzat denediğimde gördüğüm şu oldu:
pyproject.tomldaha da iyi olurdu)(yani gerçekte 1.000 değil)
HRM modelinin yakında MoE (Mixture of Experts) ile birleşmesini hem bekliyorum hem de biraz bundan çekiniyorum
LLM'leri daha güçlü hâle getirme yönündeki ekonomik baskı çok büyük; bu yüzden böyle bir birleşimin aylar içinde bile gerçekleşebileceğini düşünüyorum
Makale yalnızca sudoku çözme gibi bulmaca problemlerini ele alıyor; soru-cevap ya da LLM'lerin başlıca kullanım alanlarına girmiyor
Yeni nesil LLM'lerle nasıl birleştirilebileceğini tartışmamış olmaları biraz hayal kırıklığı yarattı
MoE, kavram kümeleriyle ilgili bir fikir ama bundan sonra kavramların derinliğini, hiyerarşi sayısını ve öğrenme süresini de latent space'in parçası hâline getirmek gerekebilir; bu da matematik kitabı okurken kullandığımız okuma tarzıyla kısa bir haber okurken kullandığımız tarzın farklı olmasına benziyor
HRM, az sayıda kuralın karmaşık biçimde iç içe geçtiği bulmacalar için tasarlanmış
Özellikle Sudoku dışındaki uygulamalar ya da sınırlamalar konusunda pek tartışma olmaması bende de biraz kuşku uyandırıyor
Makaleye göz atınca, MoE LLM sistemlerinin de (otoregresif, diffusion, energy-based fark etmeksizin) HRM yapısıyla hiyerarşik biçimde iç içe geçirilebileceğini düşündüm
Nörobilimden ilham almış olmalarını takdir ediyorum; genel olarak makalede özellikle sorunlu görünen bir şey yok
Kendim birebir çoğaltma deneyi yapmadım ama yazarların yaptığı şey, en azından bir miktar genel amaçlı olabilecek bir constraint-satisfaction çözücüsü olabilir
Az sayıda örnekten yalnızca çözümleri değil, kısıt kurallarını da öğrenen bir sistemse, bu tek başına bile yeterince ilginç
Yine de CoT modelleriyle doğrudan karşılaştırma bana çok ikna edici gelmedi
CoT modelleri prensipte herhangi bir karmaşık problemi çözebilir, ancak HRM her özel bulmaca için ayrı eğitim gerektiriyor ve genellik iddiası burada zayıf kalıyor
Örneğin satranç motoru Stockfish, satrançta bir LLM'den daha iyi diye Stockfish'in daha 'zeki' olduğunu söyleyemeyiz gibi
Güzel bir fikir ama makalede hafif bir pazarlama abartısı sezdim
Katılıyorum! Aslında bu tek başına bile muazzam bir başarı
CoT modellerinin özünde her karmaşık görevi çözebileceğini söylemiştin; bunun dayanağını merak ediyorum
Eğer bu makale doğruysa etkisi çok büyük olur; bu yüzden dikkatle izlemeye devam ediyorum