Sürekli Düşünce Makinesi

(pub.sakana.ai)

2 puan yazan GN⁺ 2025-05-13 | Henüz yorum yok. | WhatsApp'ta paylaş

Continuous Thought Machine (CTM), sinir ağı hesaplamasına zamansal sinir dinamiklerini açıkça ekleyerek, yalnızca statik feed-forward işlemeyle ele alınması zor olan “düşüncenin gelişimini” modelin içinde gerçekleştirmeyi amaçlayan yeni bir mimaridir
Yapının merkezinde, veri sırasından ayrılmış internal ticks, son pre-activation geçmişini işleyen nöron başına MLP’lerden oluşan neuron-level models ve nöron çiftleri arasındaki zamansal senkronizasyonu temsil olarak kullanma yaklaşımı yer alır
ImageNet, 2D labirent, parity, Q&A MNIST, CIFAR-10/100, gerçek sayı sıralama ve pekiştirmeli öğrenme deneylerinde çekirdek yapıyı koruyup yalnızca giriş/çıkış modüllerini değiştirerek uygulanabilirliğini gösterir
Labirent deneyinde konum embedding’i olmadan L/R/U/D/W yollarını doğrudan tahmin etti; 39×39 labirentler ve uzunluğu 100’e kadar olan yollarla eğitilen modelin 99×99 labirentlere ve yaklaşık 6 kat daha uzun yollara genelleşebildiği örnekler gösterildi
CTM, senkronizasyon temsili üzerinden bellekten geri çağırma, uyarlanabilir hesaplama, yorumlanabilir dikkat kayması ve iç dünya modeli oluşturma gibi davranışlar gösterse de gerçek nöronları birebir taklit eden bir model değildir

CTM’nin hedeflediği problem

Mevcut sinir ağları, biyolojik beyinde görülen zamansal sinir dinamiklerini büyük ölçekli derin öğrenmeye uygun olsun diye kasıtlı olarak basitleştirip statik aktivasyon değerleri merkezli işlemeye dayanıyordu
Beyinde spike-timing-dependent plasticity (STDP), sinir salınımları ve spike timing ile synchrony temelli zamansal kodlama bulunurken, modern sinir ağları çoğunlukla sadelik ve hesaplama verimliliğine öncelik verir
İnsan bilişinin esnekliği ve genelliğine kıyasla güncel yapay zekanın eksik kaldığı yönler vardır ve bunların bir kısmı zaman işleme ile ilişkili olabilir
CTM’nin katkısı üç unsurda özetlenir
- Ayrı bir iç boyut: yapay sinir sisteminde düşüncenin açılabileceği bir zaman ekseni
- neuron-level models (NLMs): her nöronun sabit bir ReLU gibi statik bir fonksiyon yerine giriş sinyali geçmişini işleyerek aktive olması
- neural synchronization: gözlem ve tahminde doğrudan kullanılan gizil temsil

Çıkarım modelleri ve recurrence

Mevcut modelleri ölçek büyüterek geliştirme yaklaşımı büyük ilerleme sağladı; ancak hesaplama maliyeti ve veri gereksinimi arttığı için uzun vadeli sürdürülebilirliği soru işareti taşıyor
Sıralı veride RNN ailesi uzun süre kullanıldı, ancak Transformer tabanlı yaklaşımlar büyük ölçüde bunların yerini aldı; son dönemde ise recurrence, model karmaşıklığını büyütmenin bir yolu olarak yeniden ilgi görüyor
Metin üretimindeki reasoning modelleri, ara üretimler üzerinden test anındaki hesaplamayı artıran bir recurrence biçimi kullanıyor
CTM, recurrence’ın kendisinden çok, recurrence’ın mümkün kıldığı kesin zamanlama ve sinir etkinliği etkileşimini esas unsur olarak görüyor
Mevcut yaklaşımlardan üç farkı var
- Veri modalitesinden bağımsız bir iç boyutta sıralı düşünme mümkün
- Nöron başına private model, hassas sinir zamanlamasını ele alıyor
- Sinir senkronizasyonu doğrudan görev çözme temsili olarak kullanılıyor

CTM’nin üç temel mekanizması

CTM, veriyi işlerken sinir etkinliğini dahili olarak birden fazla tick boyunca açan bir yapıdır
Bir internal tick içinde son pre-activation geçmişi toplanır ve NLMs bunu işleyerek post-activation üretir
Zamana yayılan post-activation geçmişi, nöronlar arasındaki senkronizasyonu hesaplamak için kullanılır ve bunun sonucu Synchronization Representation olur
Teknik ayrıntılar Technical Report içinde yer alır; ayrıca GitHub repository de açıktır
Internal ticks: düşüncenin açıldığı iç boyut
- CTM, t ∈ {1, …, T} biçiminde süreklilik gösteren bir iç boyut tanımlar
- RNN veya Transformer gibi sözcük, kare vb. veri sırasını izlemek yerine, kendi ürettiği internal ticks üzerinden çalışır
- Bu iç açılım sayesinde görüntü ya da labirent gibi statik veya sıralı olmayan verilerde de temsilleri tekrar tekrar oluşturup rafine edebilir
- Sayfanın üst kısmındaki etkileşimli labirent demosu 75 tick kullanır
Recurrent weights ve neuron-level models
- CTM’nin synapse modeli, U-NET biçiminde recurrent bir MLP’dir ve her tick’te pre-activation üretir
- Son M adet pre-activation, her nöronun giriş geçmişi olarak toplanır
- Her nöron d, kendine özgü parametreler θd taşıyan bir private MLP ile kendi pre-activation geçmişini işler ve post-activation üretir
- Tüm nöronların post-activation çıktıları, attention output ile birleştirilip sonraki tick’in recurrent hesaplamasına girer
Synchronization representation
- CTM, belirli bir andaki nöron durumu anlık görüntüsüne değil, zamana yayılan nöron etkinliği dinamiklerine göre girdiyi tüketip çıktı üretmek üzere tasarlanmıştır
- post-activation geçmişi Zt üzerinden St = Zt · (Zt)^T iç çarpımı alınarak nöronlar arası synchronization matrix hesaplanır
- Bu matris O(D²) ölçeğinde büyüdüğü için, pratik kullanımda (i, j) nöron çiftleri kısmi örneklenerek Sout ve Saction temsilleri oluşturulur
- Sout, logits gibi tahminler üretmek üzere çıktı uzayına yansıtılır; Saction ise attention query benzeri şekilde gözleme yönelik eylem için kullanılır
- Model genişliği D arttıkça mümkün senkronizasyon temsilleri de D × (D+1) / 2 ölçeğine çıkar
Veri giriş biçimi
- Veri, her internal tick’te mevcut senkronizasyona dayalı attention ile gözlemlenir
- Deneylerin çoğunda standart cross attention kullanılır
- FeatureExtractor, veriden key ve value için yerel özellikler üretir; senkronizasyondan yansıtılan query bunları sorgular
- attention output, bir sonraki recurrence çevriminde post-activation ile birlikte kullanılır

Eğitim kaybı: tüm internal ticks’i optimize etmek

CTM her internal tick için çıktı üretir
Her tick’in tahmini için cross-entropy gibi standart kayıplar hesaplanır ve certainty, 1 - normalized entropy olarak bulunur
Nihai kayıp, dinamik olarak seçilen iki tick’in ortalamasıdır
- Kaybı en düşük tick t1 = argmin(L)
- Güveni en yüksek tick t2 = argmax(C)
Bu yöntem yalnızca son step’e bağlı kalmaz; birden fazla internal tick üzerinde anlamlı hesaplama yapılmasını sağlar
Kayıp tasarımı doğal bir curriculum etkisi oluşturur ve problem zorluğuna göre hesaplama miktarını ayarlamayı mümkün kılar

ImageNet deneyi

ImageNet deneyinin amacı yeni bir state-of-the-art elde etmek değil, CTM’nin veriyle nasıl etkileşime girdiğini göstermektir
CTM, görüntüyü gözlemlerken tahminini adım adım kurar ve bu süreçte neural synchronization’ı doğrudan temsil olarak kullanır
internal steps süreç içinde kesilebildiği için adaptive compute mümkündür
- Belirli bir noktadan sonra doğruluk artışı küçük olsa da ek kazanç sürer
Demoda 16 attention head’in attention weights’i, sınıf tahmini ve zamana bağlı certainty gösterilir
Sinir etkinliği UMAP projeksiyonu ile 2D olarak görselleştirilir; her nöron bir nokta olarak gösterilir, boyut mutlak değeri, renk ise değerin işaretini ve büyüklüğünü temsil eder

2D labirent deneyi

Labirent çözme, modelin başlangıç noktasından hedefe kadar yolu adım adım kurması gereken bir görev olarak tanımlanır
CTM, yolu görüntü olarak değil, doğrudan L/R/U/D/W adım dizisi şeklinde tahmin edecek şekilde eğitildi
Sayfanın üst kısmında etkileşimli demonun küçük bir sürümü, ayrıca daha büyük modelin demosu bulunur
Demoda yolun 75 internal tick boyunca nasıl oluştuğu gösterilir; duvarlardan geçen tahminler geçerli yol gösterimine dahil edilmez
16 attention head’in ağırlıkları ve ortalama attention birlikte gösterilerek modelin nereye odaklandığı izlenebilir
Genelleme ve dünya modeli
- Uzunluğu 100’e kadar olan yolları 39×39 labirentlerde çözmek üzere eğitilen CTM, daha büyük 99×99 labirentlere uygulandı
- Örnek labirentteki toplam yol, eğitim koşullarındakinden yaklaşık 6 kat daha uzundur
- CTM, konum embedding’i kullanmadı ve yolu doğrudan sınıf dizgesi olarak tahmin etmek zorundaydı
- Konum embedding’i olmadığı için, veriyi sorgulamak ve labirentte gezinmek adına iç bir dünya modeli kurmak zorundaydı
- Araştırmacılar, oyun veya video gibi daha karmaşık ortamlarda açık konum kodlaması olmadan CTM’nin nasıl yol bulduğunu görmek istediklerini belirtiyor

Parity deneyi

Parity görevi, ikili dizinin kümülatif parity değerini 64 konumun her biri için tahmin etmeye dayalıdır
Tüm 64 uzunluklu ikili vektör tek seferde verildiğinden, basit sıralı girişten daha zor bir kurulumdur
CTM, farklı sayıda internal tick ile eğitildi ve aynı parametre sayısına sahip LSTM ile karşılaştırıldı
75 internal tick’i aşan CTM bu görevi kararlı biçimde çözebildi; bazı çalıştırmalar %100 doğruluğa ulaştı
LSTM ise 10 internal tick’in ötesinde eğitilmekte zorlandı ve iç düşünce boyutunu açmak için uygun olmadığını gösterdi
Demoda bazı attention head’lerin veriyi arkadan öne doğru taradığı ve ilk attention head’in yalnızca negative parity konumlarına attend ettiği gibi yorumlanabilir davranışlar görüldü
İki CTM örneği farklı stratejiler öğrendi
- Biri veriye ters sırada attend edip kümülatif parity’yi tek seferde tahmin etti
- Diğeri ileri yönde attend ederek parity’yi kademeli biçimde tahmin etti
- Her ikisi de kusursuz doğruluğa ulaştı

Q&A MNIST deneyi

Q&A MNIST, CTM’nin bellek ve geri çağırma yeteneğini değerlendirmek için tasarlanmış bir görevdir
Model önce bir MNIST rakam dizisi görür; ardından hangi rakamın geri çağrılacağı ve hangi modular operation’ın uygulanacağına dair index ve operator embedding alır
Tüm rakamlar ile index/operator embedding verildikten sonra zero-tensor flag, nihai yanıtın üretilmesini ister
Deneyde CTM’nin memory length’i, MNIST rakamlarının neuron-level models aktivasyon geçmişi penceresinin dışına düşeceği şekilde ayarlandı
Bu nedenle CTM, rakamı daha sonra geri çağırabilmek için aktivasyonları örgütleyerek bilgiyi korumak zorundaydı
Sonuçlar ve genelleme
- Girdi başına bir internal tick olduğunda LSTM, CTM’den daha yüksek performans gösterse de internal ticks arttıkça daha kararsız hale geldi
- CTM, internal ticks arttıkça güçlendi ve en zor in-distribution görevde %95’in üzerinde doğruluk elde etti
- CTM, çok önceki timestep’lerde gördüğü rakam değerlerini geri çağırabildi; bu durum nöronların örgütlenmesi ve senkronizasyonunun sonucu olarak yorumlandı
- Genelleme deneylerinde, eğitimdekinden daha fazla rakam veya index-operator embedding verildiğinde doğruluk ölçüldü
- Hem CTM hem de LSTM baseline, işlem sayısının artmasına genelleşebildi
- Ampirik sonuçlarda, her yeni index embedding verildiğinde model belirtilen işlemin sonucunu hesaplayıp saklayabildiği için final answer flag’i beklemeden işlemeye devam edebildi
- CTM, internal ticks arttıkça daha iyi performans gösterdi; LSTM ise ters yönde bir eğilim sergiledi

Ek deneyler

CIFAR-10: insan, feed-forward ve LSTM ile karşılaştırma
- CIFAR-10 deneyi, CTM’yi insan performansı, feed-forward baseline ve LSTM baseline ile karşılaştırmak için tasarlandı
- Farkı daha görünür kılmak için sınırlı bir backbone kullanıldı
- İnsan etiketli veri kümeleri olarak CIFAR-10D ve CIFAR-10H kullanıldı
- CIFAR-10D, zorluk düzeyi kalibrasyonuyla ilişkilidir
- CIFAR-10H, insan belirsizliğini nicelleştirmek için kullanılan bir veri kümesidir
- CIFAR-10D burada, CIFAR-10H ise burada yer alır
- Kalibrasyon hesabında CIFAR-10H olasılıkları kullanıldı ve CTM, insanla karşılaştırıldığında bile en iyi kalibrasyonu gösterdi
- CTM’nin sinir etkinliği zengin, çeşitli ve karmaşık dinamikler sergiledi; periodic driving function olmadan da periodic behavior ortaya çıktı
- CTM ile LSTM’nin sinir etkinliği farkı, neuron-level models ve synchronization representation’ın hesaplama mekanizması olarak sinir dinamiklerini mümkün kıldığına dair kanıt oluşturdu
CIFAR-100 ablation
- CIFAR-100 deneyinde nöron sayısı, yani model genişliği değiştirilirken diğer koşullar ve eğitim süresi sabit tutuldu
- Daha geniş ağlar, daha uzun eğitim süresi veya farklı hyper-parameters gerektirebileceğinden bazı doğruluk düşüşleri görüldü
- neuron-level models’ın ne kadar özgünleştiğini görmek için nöronlar arası dinamiklerin cosine similarity değeri ölçüldü
- Model genişliği arttıkça nöronlar arası çeşitlilik azalmak yerine arttı
- internal ticks sayısı ile tahmin arasındaki ilişki de incelendi
- 25, 50 ve 100 internal tick ayarlarında CTM’nin en emin olduğu step’in dağılımına bakıldı
- Her ayarda iki yoğun bölge ortaya çıktı ve bunun, CTM’nin veriye göre ayrı iç süreçler izlediği şeklinde yorumlandığı belirtildi
Gerçek sayı sıralama
- CTM, N(0, I30) içinden gelen 30 gerçek sayıyı sıralamak üzere eğitildi
- Amaç, kontrollü bir ortamda CTM’nin ne zaman daha fazla ya da daha az hesaplama kullandığını görmek ve CTC loss ile sıralı çıktı öğrenip öğrenemediğini test etmekti
- Bu CTM, uzunluğu 30 olan gerçek sayı listesini yaklaşık %80 olasılıkla sıralayabildi
Pekiştirmeli öğrenme
- CTM, continuous thought dimension ile sıralı olmayan veriyi işlemenin ötesine geçerek dış ortamla etkileşimli görevlere de uygulandı
- Proximal policy optimization kullanılarak navigation task ile partially observable CartPole ve Acrobot varyantları eğitildi
- Bu kurulumda CTM, gözlemi alıp sabit sayıda internal thought step ile işledikten sonra sonraki action’ı üretir
- activation history, ortam adımları arasında kesintisiz korunduğu için geçmiş environment step’lerin aktivasyonları mevcut kararları etkileyebilir
- Sonuçta CTM, LSTM baseline ile karşılaştırılabilir performans verdi ve sürekli çevrelerde de öğrenebildiğini gösterdi

Sonuç ve sınırlamalar

CTM, pointwise activation function’ı private neuron-level models ile değiştirerek daha zengin nöron dinamikleri üretir ve activation vector yerine neural synchronization kullanarak yeni bir temsil sunar
Bu yaklaşım, görüntü sınıflandırmada zaman içinde temsil kurmayı, konum embedding’i olmadan labirent attention’ı ve iç harita oluşumunu, adaptive computation’ı ve aktivasyon geçmişi dışındaki bellek depolama ile geri çağırmayı mümkün kılar
Çekirdek CTM mimarisi farklı görevlerde büyük ölçüde korundu; çoğunlukla yalnızca giriş/çıkış modüllerinin ayarlanması gerekti
Labirent keşfi gibi karmaşık senaryolarda CTM az ayarlamayla çalışırken, LSTM önemli ayarlamalara rağmen zorlandı
CTM, biyolojik nöronları katı biçimde birebir taklit etmeye çalışan bir model değildir
- Gerçek nöronlar, CTM’deki gibi aktivasyon geçmişine erişmiyor olabilir
- Buna rağmen traveling waves gibi ortaya çıkan olgular gözlendi
CTM, biyolojiden kavram ödünç alıp pratiklik ile biyolojik ilham arasında uzlaşan bir yaklaşım sunar ve güncel yapay zekada eksik olan yetenekleri açabilecek bir araştırma yönü olabilir

Sürekli Düşünce Makinesi

CTM’nin hedeflediği problem

Çıkarım modelleri ve recurrence

CTM’nin üç temel mekanizması

Internal ticks: düşüncenin açıldığı iç boyut

Recurrent weights ve neuron-level models

Synchronization representation

Veri giriş biçimi

Eğitim kaybı: tüm internal ticks’i optimize etmek

ImageNet deneyi

2D labirent deneyi

Genelleme ve dünya modeli

Parity deneyi

Q&A MNIST deneyi

Sonuçlar ve genelleme

Ek deneyler

CIFAR-10: insan, feed-forward ve LSTM ile karşılaştırma

CIFAR-100 ablation

Gerçek sayı sıralama

Pekiştirmeli öğrenme

Sonuç ve sınırlamalar

İlgili okumalar

Henüz yorum yok.