- Araştırmacılar, beynin nöronlarının hesaplamada zamanlama ve senkronizasyonu kullanmasının modern yapay zekada gözden kaçan temel bir unsur olduğuna işaret ediyor
- Continuous Thought Machine (CTM) mimarisi tanıtılarak, hayvan beyninin zaman tabanlı sinirsel dinamikleri gerçek bir modele dahil ediliyor
- CTM, asenkron iç düşünme boyutu, tekil nöron düzeyi modelleme ve nöronlar arası senkronizasyon temsili ile bilgiyi işliyor
- Çeşitli deneylerde uyarlanabilir hesaplama gücü, sinirsel senkronizasyona dayalı bellek ve güçlü genelleme yeteneği doğrulanıyor
- CTM mimarisinin yorumlanabilirliği, biyolojik inandırıcılığı ve çeşitli görevlere uygunluğu gösteriliyor
tl;dr
- Beyindeki nöronların hesaplamada kullandığı zamanlama ve senkronizasyon özellikleri, biyolojik zekânın esnekliği ve uyum yeteneğinin merkezinde yer alıyor
- Modern yapay zeka, verimlilik ve sadelik uğruna bu zaman tabanlı özellikleri dışarıda bırakıyor
- Araştırma ekibi, nöron zamanlamasının önemli olduğu biyolojik inandırıcılık ile modern yapay zekanın verimli uygulanışı arasındaki boşluğu kapatmanın bir yolunu buldu
- Sonuçlar bunun oldukça şaşırtıcı ve umut verici olduğunu gösteriyor
Introduction
- Neural Network (NN) başlangıçta biyolojik beyinden ilham almış olsa da, günümüz NN'leri gerçek beyinden çok farklı yapılar ve dinamikler taşıyor
- Modern NN'ler, zamansal dinamikleri dışarıda bırakarak büyük ölçekli derin öğrenmeyi mümkün kıldı, ancak bu biyolojik temelden uzaklaşmak anlamına geliyor
- Beyin, spike-timing-dependent plasticity (STDP) ve nöron senkronizasyonu gibi karmaşık sinirsel dinamiklerden yararlanıyor
- Bu zamansal işleme ilkeleri modern yapay zekada eksik, bu da insan düzeyinde esnek zekâya ilerlemenin önünde engel oluşturuyor
- Bu nedenle zaman işleme yeteneği, yapay zekanın temel unsurlarından biri olmalı
Why do this research?
- Modern yapay zekanın yüksek performansına rağmen, esnek insan bilişi ve genellik açısından özsel bir fark bulunuyor
- Yapay zekanın insan beyninin ötesinde başarılara ulaşabilmesi için sinirsel etkinliği ve zamanlamayı etkin biçimde taklit etmesi gerekiyor
- Bu çalışmada Continuous Thought Machine (CTM) aracılığıyla nöron zamanlaması temel bir unsur olarak sunuluyor
- Başlıca katkılar; iç düşünme boyutunun ayrıştırılması, tekil nöron düzeyinde sinirsel model ve senkronizasyon tabanlı temsil yapısı
Reasoning models and recurrence
- Yapay zeka, giderek basit girdi-çıktı eşlemelerinden uzaklaşıp etkin akıl yürütme modellerine evriliyor
- Geleneksel RNN türü döngüsel yapılar son dönemde Transformer ile yer değiştirmiş olsa da, döngüselliğin kendisi model karmaşıklığını ölçeklemede yararlı
- Modern metin üretim modelleri gibi sistemler, test zamanında ara üretim (recurrence) kullanıyor; bu da ek hesaplama ve esneklik sağlıyor
- CTM, mevcut yaklaşımlardan farklı olarak içte ayrıştırılmış kademeli düşünme boyutu, tekil nöron düzeyinde zamanlama ve senkronizasyonun kendisini görev çözüm temsili olarak kullanıyor
Method
Yapı özeti
- CTM, veri üzerinde içsel olarak sinirsel etkinliğin açıldığı bir yapı
- Her adımda 'pre-activation' geçmişi toplanıp Neuron Level Model (NLM) içine veriliyor
- Birden çok nöronun 'post-activation' geçmişlerinden yola çıkarak nöron senkronizasyon matrisi hesaplanıyor ve güçlü bir senkronizasyon temsili üretiliyor
- Senkronizasyon temsili, modelin gözlem ve tahminlerinin temel gizil vektörü olarak kullanılıyor
Ayrıntılı yapı
1. Internal recurrence (iç döngüsellik)
- İç döngü boyutu kullanılarak düşüncenin ilerleyişinin açıldığı ayrı bir boyut kuruluyor
- Her iç tick, dış zaman serisi verisinden bağımsız olarak kendi düşünme birimi gibi çalışıyor
2. Neuron-level models (nöron düzeyi modeller)
- Her nöron kişiselleştirilmiş bir MLP yapısına sahip ve 'pre-activation' kısa geçmişini girdi olarak alıp 'post-activation' üretiyor
3. Synchronization as representation (temsil olarak senkronizasyon)
- Belirli bir süre içindeki tüm 'post-activation' değerleriyle nöron senkronizasyon matrisi hesaplanıyor ve bu, temel gizil temsil/eylem vektörü olarak kullanılıyor
Girdi verisiyle ilişkisi
- Veri, iç döngü ve senkronizasyon merkezli işleme yaklaşımını tamamlayıcı biçimde kullanıyor
- Girdi verisinin gözlemi ve tahmini, senkronizasyon durumuna göre yapılıyor
Internal ticks: düşünme boyutu
- CTM kendi düşünme zaman çizgisine sahip; veri sırasından bağımsız olarak içerde bilgiyi tekrar tekrar güncelliyor ve rafine ediyor
- Bu boyutta zeki etkinliğin açılımı gerçekleşiyor
Recurrent weights: Synapses
- U-NET tarzı MLP ile 'pre-activation' üretiliyor ve en son M değer korunuyor
- Her nöron, geçmiş vektörünü ('pre-activation' zaman serisi) alan ayrı bir MLP ile 'post-activation' üretiyor
Synchronization as a representation
- Model dış dünyayla nöronlar arası senkronizasyon matrisi üzerinden etkileşime giriyor
- Senkronizasyon değerleri doğrudan gerçek davranış göstergelerinde kullanılıyor (çıktı, gözlem, attention query vb.)
- Model genişliği D büyüdükçe temsili güç ve bilgi miktarı karesel olarak artıyor
- Attention gibi girdi veri modülleriyle birleştiğinde daha da güçlü bilgi işleme yeteneği gösteriyor
Loss function
- Her iç tick için çıktı üretiliyor ve buna karşılık gelen loss ile güven skoru (1-normalize entropy) hesaplanıyor
- Toplam loss, en düşük kayıp anı ile en yüksek güven anını dinamik biçimde toplayarak problemin zorluğuna uygun uyarlanabilir öğrenmeyi teşvik ediyor
Experiment: ImageNet
Demonstrations
- CTM, görüntü verisi üzerinde çeşitli attention head'ler ve sinirsel senkronizasyon kullanarak tahmin yapıyor
- Doğruluk, calibration ve güven eşiklerine göre çeşitli metrikler görselleştiriliyor
Results
- CTM, adaptive compute sayesinde düşünme adımlarını ayarlıyor; belirli bir aşamadan sonra ek faydanın sınırlı olduğu gözleniyor
- 16 attention head, her aşamadaki sınıf tahmini/doğruluk ve nöron etkinliği birlikte görselleştiriliyor
Discussion
- CTM, veriyle sezgisel ve esnek etkileşimi öne çıkarıyor
- Nöron senkronizasyonuna dayalı temsil sayesinde görsel tanımada da mevcut yaklaşımlardan açık biçimde ayrışıyor
- Zaman (TIME) unsurunun, insanların bilgiyi işleme biçimiyle temelden bağlantılı olduğuna işaret ediyor
Experiment: Solving 2D Mazes
The why and the how
- 2D labirent çözme, araç desteği olmadan sinir ağı modelleri için çok zor bir görev
- CTM, doğrudan yol tahmini (L/R/U/D/W) yaklaşımıyla eğitiliyor ve attention desenleri kasıtlı olarak gerçek yol ile örtüşüyor
- Genelleme testlerinde, karmaşık ve uzun labirentleri de yüksek doğruluk/genelleme ile çözüyor
Results & Discussion
- CTM, en uzun yollarda bile mevcut baseline'lara kıyasla ezici performans gösteriyor
- İnsana benzer stratejik bir iç world model oluşturarak, yalnızca ezber değil gerçek bir reasoning yeteneğine sahip olduğunu gösteriyor
A World Model
- Position encoding olmadan bile yalnızca görsel bilgiyle içsel bir çevre modeli kurup problemi çözüyor
Experiment: Parity
- İkili dizilerin iç içe geçmiş parity'sini (çift/tek toplam) tüm girdinin verildiği koşulda tahmin edecek şekilde eğitiliyor
- 75 adımdan fazla iç düşünme tick'i kullanıldığında CTM %100 doğruluğa ulaşabiliyor
- LSTM'de iç düşünme tick'i arttıkça eğitim kararsız hale geliyor
Learning sequential algorithms
- Attention head hareketleri ve nöron etkinlik desenleri üzerinden CTM'in veriyi ters yönde ve ileri yönde tarama stratejilerini ayrı ayrı öğrendiği görülüyor
- Bu, stratejik planlama (Planning) ve aşamalı uygulama yeteneğinin kanıtı
Experiment: Q&A MNIST
Memory via Synchronization
- MNIST Q&A görevi ile CTM'in uzun süreli bellek/geri çağırma kapasitesi test ediliyor
- Girdi görüntüsü nöron etkinliği geçmiş penceresinin dışına çıksa bile, senkronizasyon sayesinde uzun süreli bellek bilgisi saklanıp geri çağrılıyor
Results & Generalization
- İç düşünme tick sayısı arttıkça performans iyileşiyor ve karmaşık sorular/uzunluklar karşısında genelleme yeteneği çok güçlü
- LSTM daha fazla tick'te kararsızlaşırken, CTM tutarlı biçimde öğrenip çıkarım yapıyor
Additional experiments
CTM versus humans
- CIFAR-10 üzerinde insan, feedforward, LSTM ve CTM performansı karşılaştırılıyor
- Calibration (olasılık tahmini uyumu) açısından CTM insanlardan daha iyi
- Sinirsel senkronizasyon dinamikleri, mevcut yaklaşımlardan farklı olarak çok çeşitli ve karmaşık iç özellikler sergiliyor
CIFAR-100, ablation studies
- Model genişledikçe nöron çeşitliliği/dinamiklerinin arttığı gözleniyor
- İç tick sayısına bağlı olarak göreve göre farklı iç düşünme süreçleri ('iki tepeli' dağılım) ortaya çıkıyor
Sorting real numbers
- 30 gerçek sayıyı sıralama deneyinde CTM, değerler arasındaki mesafe/farka göre iç hesaplama süresinin (bekleme tick'i) değiştiği emergent behavior gösteriyor
Reinforcement Learning
- MiniGrid, CartPole gibi RL ortamlarında, CTM içsel sürekli düşünme birimlerini kullanarak ortamla etkileşim ve politika kararı gerçekleştiriyor
- LSTM'e benzer uç performans gösterirken, sürekli düşünce kaydının etkisini kanıtlıyor
Conclusion
- CTM, biyolojik inandırıcılık ile yapay zeka verimliliğinin birleşimini yeni bir yolla başarıyor
- Nöron düzeyi model eklenmesi ve sinirsel senkronizasyona dayalı yeni temsil biçimi sayesinde daha önce görülmeyen temsil yetenekleri sunuyor
- Görüntü sınıflandırma, labirent çözme, bellek, sıralama, RL gibi çeşitli görevlerde yapısal tutarlılık ve yüksek uyum yeteneği gösteriyor
- Beyin bilimi ile makine öğrenmesinin sinerjisini ve zaman-senkronizasyon merkezli düşünce makinesi tasarımının önemini ortaya koyuyor
1 yorum
Hacker News görüşleri
Bu makalenin endişe verici yanı, mevcut makine öğrenmesi alanında biyolojik olarak makul spiking neural network'ler ve zamana bağımlı yapay sinir ağları üzerine zaten çok fazla çalışma olmasına rağmen, makaledeki terminoloji ve yaklaşımın o geniş önceki literatürü yeterince teslim etmiyormuş gibi hissettirmesi; özellikle sinaptik entegrasyon adımını “thinking” olarak adlandırmaları insanlarda kafa karışıklığı yaratabilir diye düşünüyorum. Oysa düşünme, sıradan bir insanın aklına gelen biçimiyle fikir üretme, değerlendirme ve düzeltmenin tekrarlandığı bir süreçtir; makale ise bunu tekil birim düzeyindeki bir prosese yapıştırıyor. Bu da mevcut ANN ya da makine öğrenmesi terminolojisinden oldukça uzak. “Düşünme” etiketi uygun gelmiyor. Tüm atıfları tek tek incelemedim; sadece aşina olduğum araştırma çizgilerine dair ifadelere anlık tepki verdim.
Bu önemli konuya yeniden odaklanılmasını görmek gerçekten sevindirici. Biyolojik beyin ve beden bağlamında “zaman”ı doğrusal Newtoncu zaman gibi düşünmek kolay, ama beyin-beden sisteminde kritik olan şey, 300 ms'lik “temsili şimdi”den ses konumunu değerlendiren hücrelerdeki 50 mikrosaniyelik farklı “şimdi” parçalarına kadar uzanan aralıklarda, düzenli davranış ve hesaplama sıraları oluşturmaktır. Koşullu zamansallık hakkında daha fazlasını öğrenmek isterseniz, European Journal of Neuroscience'ta John Bickle'ın RW Williams ile yaptığı röportajı içeren yakın tarihli makaleye bakabilirsiniz.
Makale üzerine kendi izlenimim şu: Biyolojik/spiking ağlarla aslında hiç benzemiyor gibi hissettiriyor. Makale, girdilerin geçmişini koruyor ve multi-head attention kullanarak geçmişteki “pre-synaptic” girdilerin mevcut çıktıya nasıl yansıyacağına dair içsel bir model kuruyor. Bu, biraz değiştirilmiş bir transformer gibi; girdi geçmişini saklıyor ve attention ile çıktı üretiyor. “Senkronizasyon” dedikleri şey de tüm post-activation'ların iç çarpımının alınmasıyla elde ediliyor ve bu iç çarpım sonucu ortaya çıkan matris çıktı uzayına projekte ediliyor. Her zaman adımında doğru değeri üretmek için birden fazla çıktının çarpılması gerektiğinden, bu birleşime “senkronizasyon” demiş gibiler. Bu, birden çok çıktı değerini matris halinde birleştirip her bir değerin tekilliğinden çok kombinasyonun önemini öne çıkaran, bir tür “seyreklik” teşviki gibi görünüyor. Aslında bu yöntem, çeşitli alt sistemlerden gelen çıktıları iç çarpımla birleştiren attention'ın temel mekanizması.
Bu hafta sonu ilgimi çeken üç şey var: 1) continuous thought machine'ler (biyolojik beyne benzeyen zaman serisi kodlamalı sinir ağları), 2) “zero data reasoning” (önceden devasa veriyle eğitilmek yerine doğrudan eylemle öğrenen AI), 3) Intellect-2 (dünya geneline dağıtılmış reinforcement learning yapısı). Uzman olmayan biri olarak bakınca, sanki singularity'ye bir adım daha yaklaşılmış gibi geliyor.
Spike timing ve senkronizasyon gibi zamansal kodlama mekanizmalarını uygulamak çok zor; bu yüzden modern sinir ağları zamansal dinamikler yerine sadelik ve hesaplama verimliliğine odaklanıyor. Gerçek zaman alanını simüle etmek donanım açısından da son derece zor bir problem. Özellikle ayrı bir hiperparametre ekseni daha eklediğiniz için, geçerli parametre kombinasyonlarını bulmak neredeyse imkânsız hale geliyor. Hesaplama açısından verimli bir yapı bulmak çok daha hızlı; çünkü gelecekteki zaman adımlarında spike oluştuğunda öncelik kuyruğu benzeri olay yapıları ortaya çıkıyor ve hesaplama yükü bir anda artıyor. Eğer hedef gerçekten “hard real-time interaction” değilse, pratik ve ürün odaklı açıdan bu tür yapıları kovalamakta çok anlam görmüyorum. STDP'nin (spike timing dependent plasticity) çevrimiçi gözetimsiz öğrenmeyi mümkün kılması hâlâ çok çekici, ancak şimdilik silikon tabanlı sistemlerde bunun bir yolu varmış gibi görünmüyor. Özel donanım kullanmak da bazı hiperparametreleri kod içinde sabitlere gömmek anlamına geliyor; bu da ne sağlamlık garantiliyor ne de yeterli finansman sağlıyor.
Bu makinelerin fikri baştan sona yeni değil. 2002 tarihli bir makalede Liquid State Machines (LSM) tanıtılmıştı; LSM, sürekli girdileri bir spiking neural network'e verip, ağdaki tüm nöronlara bağlı yoğun bir katmanla liquid state'i okumaya dayanıyordu. 2019 tarihli bir makale ise LSM'yi Atari oyunlarını oynamak için kullandı; zaman zaman insanı aşsa da bunu sürekli başaramadı ve mevcut sinir ağlarının sınırlamalarına benzer başarısızlık eğilimleri de gözlendi. Geleneksel sinir ağlarına kıyasla performansı belirgin biçimde daha yüksek değildi. Ben daha çok, girdiyi (örneğin ses) sürekli işleyen, sürekli çıktı veren ve beynin plasticity ilkelerini yalnızca bunlarla, yani backprop olmadan uygulayan sinir ağı araştırmalarına ilginin artmasını isterdim. Ben de kendim denedim ama beynin nasıl çalıştığını yeterince bilmediğimiz için mi bilmiyorum, henüz kusursuz bir cevap yok gibi.
İşin ironik yanı, bu web sayfası Firefox iOS'ta durmadan yenileniyor.
Gelecek nesil modellerin anahtarı “birlikte ateşleyen nöronlar birlikte bağlanır” ilkesi olacak. Spiking neural network'lerin alternatif bir yaklaşım olarak son derece ilginç olduğunu düşünüyorum.