2 puan yazan GN⁺ 2025-05-13 | 1 yorum | WhatsApp'ta paylaş
  • Araştırmacılar, beynin nöronlarının hesaplamada zamanlama ve senkronizasyonu kullanmasının modern yapay zekada gözden kaçan temel bir unsur olduğuna işaret ediyor
  • Continuous Thought Machine (CTM) mimarisi tanıtılarak, hayvan beyninin zaman tabanlı sinirsel dinamikleri gerçek bir modele dahil ediliyor
  • CTM, asenkron iç düşünme boyutu, tekil nöron düzeyi modelleme ve nöronlar arası senkronizasyon temsili ile bilgiyi işliyor
  • Çeşitli deneylerde uyarlanabilir hesaplama gücü, sinirsel senkronizasyona dayalı bellek ve güçlü genelleme yeteneği doğrulanıyor
  • CTM mimarisinin yorumlanabilirliği, biyolojik inandırıcılığı ve çeşitli görevlere uygunluğu gösteriliyor

tl;dr

  • Beyindeki nöronların hesaplamada kullandığı zamanlama ve senkronizasyon özellikleri, biyolojik zekânın esnekliği ve uyum yeteneğinin merkezinde yer alıyor
  • Modern yapay zeka, verimlilik ve sadelik uğruna bu zaman tabanlı özellikleri dışarıda bırakıyor
  • Araştırma ekibi, nöron zamanlamasının önemli olduğu biyolojik inandırıcılık ile modern yapay zekanın verimli uygulanışı arasındaki boşluğu kapatmanın bir yolunu buldu
  • Sonuçlar bunun oldukça şaşırtıcı ve umut verici olduğunu gösteriyor

Introduction

  • Neural Network (NN) başlangıçta biyolojik beyinden ilham almış olsa da, günümüz NN'leri gerçek beyinden çok farklı yapılar ve dinamikler taşıyor
  • Modern NN'ler, zamansal dinamikleri dışarıda bırakarak büyük ölçekli derin öğrenmeyi mümkün kıldı, ancak bu biyolojik temelden uzaklaşmak anlamına geliyor
  • Beyin, spike-timing-dependent plasticity (STDP) ve nöron senkronizasyonu gibi karmaşık sinirsel dinamiklerden yararlanıyor
  • Bu zamansal işleme ilkeleri modern yapay zekada eksik, bu da insan düzeyinde esnek zekâya ilerlemenin önünde engel oluşturuyor
  • Bu nedenle zaman işleme yeteneği, yapay zekanın temel unsurlarından biri olmalı

Why do this research?

  • Modern yapay zekanın yüksek performansına rağmen, esnek insan bilişi ve genellik açısından özsel bir fark bulunuyor
  • Yapay zekanın insan beyninin ötesinde başarılara ulaşabilmesi için sinirsel etkinliği ve zamanlamayı etkin biçimde taklit etmesi gerekiyor
  • Bu çalışmada Continuous Thought Machine (CTM) aracılığıyla nöron zamanlaması temel bir unsur olarak sunuluyor
  • Başlıca katkılar; iç düşünme boyutunun ayrıştırılması, tekil nöron düzeyinde sinirsel model ve senkronizasyon tabanlı temsil yapısı

Reasoning models and recurrence

  • Yapay zeka, giderek basit girdi-çıktı eşlemelerinden uzaklaşıp etkin akıl yürütme modellerine evriliyor
  • Geleneksel RNN türü döngüsel yapılar son dönemde Transformer ile yer değiştirmiş olsa da, döngüselliğin kendisi model karmaşıklığını ölçeklemede yararlı
  • Modern metin üretim modelleri gibi sistemler, test zamanında ara üretim (recurrence) kullanıyor; bu da ek hesaplama ve esneklik sağlıyor
  • CTM, mevcut yaklaşımlardan farklı olarak içte ayrıştırılmış kademeli düşünme boyutu, tekil nöron düzeyinde zamanlama ve senkronizasyonun kendisini görev çözüm temsili olarak kullanıyor

Method

Yapı özeti

  • CTM, veri üzerinde içsel olarak sinirsel etkinliğin açıldığı bir yapı
  • Her adımda 'pre-activation' geçmişi toplanıp Neuron Level Model (NLM) içine veriliyor
  • Birden çok nöronun 'post-activation' geçmişlerinden yola çıkarak nöron senkronizasyon matrisi hesaplanıyor ve güçlü bir senkronizasyon temsili üretiliyor
  • Senkronizasyon temsili, modelin gözlem ve tahminlerinin temel gizil vektörü olarak kullanılıyor

Ayrıntılı yapı

1. Internal recurrence (iç döngüsellik)

  • İç döngü boyutu kullanılarak düşüncenin ilerleyişinin açıldığı ayrı bir boyut kuruluyor
  • Her iç tick, dış zaman serisi verisinden bağımsız olarak kendi düşünme birimi gibi çalışıyor

2. Neuron-level models (nöron düzeyi modeller)

  • Her nöron kişiselleştirilmiş bir MLP yapısına sahip ve 'pre-activation' kısa geçmişini girdi olarak alıp 'post-activation' üretiyor

3. Synchronization as representation (temsil olarak senkronizasyon)

  • Belirli bir süre içindeki tüm 'post-activation' değerleriyle nöron senkronizasyon matrisi hesaplanıyor ve bu, temel gizil temsil/eylem vektörü olarak kullanılıyor

Girdi verisiyle ilişkisi

  • Veri, iç döngü ve senkronizasyon merkezli işleme yaklaşımını tamamlayıcı biçimde kullanıyor
  • Girdi verisinin gözlemi ve tahmini, senkronizasyon durumuna göre yapılıyor

Internal ticks: düşünme boyutu

  • CTM kendi düşünme zaman çizgisine sahip; veri sırasından bağımsız olarak içerde bilgiyi tekrar tekrar güncelliyor ve rafine ediyor
  • Bu boyutta zeki etkinliğin açılımı gerçekleşiyor

Recurrent weights: Synapses

  • U-NET tarzı MLP ile 'pre-activation' üretiliyor ve en son M değer korunuyor
  • Her nöron, geçmiş vektörünü ('pre-activation' zaman serisi) alan ayrı bir MLP ile 'post-activation' üretiyor

Synchronization as a representation

  • Model dış dünyayla nöronlar arası senkronizasyon matrisi üzerinden etkileşime giriyor
  • Senkronizasyon değerleri doğrudan gerçek davranış göstergelerinde kullanılıyor (çıktı, gözlem, attention query vb.)
  • Model genişliği D büyüdükçe temsili güç ve bilgi miktarı karesel olarak artıyor
  • Attention gibi girdi veri modülleriyle birleştiğinde daha da güçlü bilgi işleme yeteneği gösteriyor

Loss function

  • Her iç tick için çıktı üretiliyor ve buna karşılık gelen loss ile güven skoru (1-normalize entropy) hesaplanıyor
  • Toplam loss, en düşük kayıp anı ile en yüksek güven anını dinamik biçimde toplayarak problemin zorluğuna uygun uyarlanabilir öğrenmeyi teşvik ediyor

Experiment: ImageNet

Demonstrations

  • CTM, görüntü verisi üzerinde çeşitli attention head'ler ve sinirsel senkronizasyon kullanarak tahmin yapıyor
  • Doğruluk, calibration ve güven eşiklerine göre çeşitli metrikler görselleştiriliyor

Results

  • CTM, adaptive compute sayesinde düşünme adımlarını ayarlıyor; belirli bir aşamadan sonra ek faydanın sınırlı olduğu gözleniyor
  • 16 attention head, her aşamadaki sınıf tahmini/doğruluk ve nöron etkinliği birlikte görselleştiriliyor

Discussion

  • CTM, veriyle sezgisel ve esnek etkileşimi öne çıkarıyor
  • Nöron senkronizasyonuna dayalı temsil sayesinde görsel tanımada da mevcut yaklaşımlardan açık biçimde ayrışıyor
  • Zaman (TIME) unsurunun, insanların bilgiyi işleme biçimiyle temelden bağlantılı olduğuna işaret ediyor

Experiment: Solving 2D Mazes

The why and the how

  • 2D labirent çözme, araç desteği olmadan sinir ağı modelleri için çok zor bir görev
  • CTM, doğrudan yol tahmini (L/R/U/D/W) yaklaşımıyla eğitiliyor ve attention desenleri kasıtlı olarak gerçek yol ile örtüşüyor
  • Genelleme testlerinde, karmaşık ve uzun labirentleri de yüksek doğruluk/genelleme ile çözüyor

Results & Discussion

  • CTM, en uzun yollarda bile mevcut baseline'lara kıyasla ezici performans gösteriyor
  • İnsana benzer stratejik bir iç world model oluşturarak, yalnızca ezber değil gerçek bir reasoning yeteneğine sahip olduğunu gösteriyor

A World Model

  • Position encoding olmadan bile yalnızca görsel bilgiyle içsel bir çevre modeli kurup problemi çözüyor

Experiment: Parity

  • İkili dizilerin iç içe geçmiş parity'sini (çift/tek toplam) tüm girdinin verildiği koşulda tahmin edecek şekilde eğitiliyor
  • 75 adımdan fazla iç düşünme tick'i kullanıldığında CTM %100 doğruluğa ulaşabiliyor
  • LSTM'de iç düşünme tick'i arttıkça eğitim kararsız hale geliyor

Learning sequential algorithms

  • Attention head hareketleri ve nöron etkinlik desenleri üzerinden CTM'in veriyi ters yönde ve ileri yönde tarama stratejilerini ayrı ayrı öğrendiği görülüyor
  • Bu, stratejik planlama (Planning) ve aşamalı uygulama yeteneğinin kanıtı

Experiment: Q&A MNIST

Memory via Synchronization

  • MNIST Q&A görevi ile CTM'in uzun süreli bellek/geri çağırma kapasitesi test ediliyor
  • Girdi görüntüsü nöron etkinliği geçmiş penceresinin dışına çıksa bile, senkronizasyon sayesinde uzun süreli bellek bilgisi saklanıp geri çağrılıyor

Results & Generalization

  • İç düşünme tick sayısı arttıkça performans iyileşiyor ve karmaşık sorular/uzunluklar karşısında genelleme yeteneği çok güçlü
  • LSTM daha fazla tick'te kararsızlaşırken, CTM tutarlı biçimde öğrenip çıkarım yapıyor

Additional experiments

CTM versus humans

  • CIFAR-10 üzerinde insan, feedforward, LSTM ve CTM performansı karşılaştırılıyor
  • Calibration (olasılık tahmini uyumu) açısından CTM insanlardan daha iyi
  • Sinirsel senkronizasyon dinamikleri, mevcut yaklaşımlardan farklı olarak çok çeşitli ve karmaşık iç özellikler sergiliyor

CIFAR-100, ablation studies

  • Model genişledikçe nöron çeşitliliği/dinamiklerinin arttığı gözleniyor
  • İç tick sayısına bağlı olarak göreve göre farklı iç düşünme süreçleri ('iki tepeli' dağılım) ortaya çıkıyor

Sorting real numbers

  • 30 gerçek sayıyı sıralama deneyinde CTM, değerler arasındaki mesafe/farka göre iç hesaplama süresinin (bekleme tick'i) değiştiği emergent behavior gösteriyor

Reinforcement Learning

  • MiniGrid, CartPole gibi RL ortamlarında, CTM içsel sürekli düşünme birimlerini kullanarak ortamla etkileşim ve politika kararı gerçekleştiriyor
  • LSTM'e benzer uç performans gösterirken, sürekli düşünce kaydının etkisini kanıtlıyor

Conclusion

  • CTM, biyolojik inandırıcılık ile yapay zeka verimliliğinin birleşimini yeni bir yolla başarıyor
  • Nöron düzeyi model eklenmesi ve sinirsel senkronizasyona dayalı yeni temsil biçimi sayesinde daha önce görülmeyen temsil yetenekleri sunuyor
  • Görüntü sınıflandırma, labirent çözme, bellek, sıralama, RL gibi çeşitli görevlerde yapısal tutarlılık ve yüksek uyum yeteneği gösteriyor
  • Beyin bilimi ile makine öğrenmesinin sinerjisini ve zaman-senkronizasyon merkezli düşünce makinesi tasarımının önemini ortaya koyuyor

1 yorum

 
GN⁺ 2025-05-13
Hacker News görüşleri
  • Bu makalenin endişe verici yanı, mevcut makine öğrenmesi alanında biyolojik olarak makul spiking neural network'ler ve zamana bağımlı yapay sinir ağları üzerine zaten çok fazla çalışma olmasına rağmen, makaledeki terminoloji ve yaklaşımın o geniş önceki literatürü yeterince teslim etmiyormuş gibi hissettirmesi; özellikle sinaptik entegrasyon adımını “thinking” olarak adlandırmaları insanlarda kafa karışıklığı yaratabilir diye düşünüyorum. Oysa düşünme, sıradan bir insanın aklına gelen biçimiyle fikir üretme, değerlendirme ve düzeltmenin tekrarlandığı bir süreçtir; makale ise bunu tekil birim düzeyindeki bir prosese yapıştırıyor. Bu da mevcut ANN ya da makine öğrenmesi terminolojisinden oldukça uzak. “Düşünme” etiketi uygun gelmiyor. Tüm atıfları tek tek incelemedim; sadece aşina olduğum araştırma çizgilerine dair ifadelere anlık tepki verdim.

    • Özür dileyerek söyleyeyim, aslında bu yoruma yanıt vermeyi planlamıştım ama ayrı bir yanıtı üst yorum dizisine bıraktım. Makalenin biyolojik spiking ağları taklit etme girişimi bana oldukça gevşek görünüyor; asıl katkı, çıktı matrisinin transpozu ile dot product kullanılması gibi duruyor, geri kalanı ise girdiye uygulanan diffusion/attention tekniği. Girdi attention'ı ile çıktı attention'ını birleştirip basamaklı özyinelemeli bir model oluşturmuşlar.
    • Son 10-20 yılda sinirbilim bağlantılı çalışmaları takdir eden makine öğrenmesi araştırmacıları çokça gösterişçilik eleştirisi aldı gibi görünüyor, o yüzden buna pek şaşırmıyorum.
    • Bu makale, sanki yeni bir fikirmiş gibi sunuluyor ama onlarca yıllık spiking neural net araştırmalarına ya da benzer alanlara neredeyse hiç değinmiyor.
    • Biyolojik esinli algoritma kavramları ve uygulamaları hakkında en içgörülü bulduğunuz kitap, makale listesi ya da kısa değerlendirmeleri paylaşırsanız sevinirim.
    • Yazarlar, tek bir sinaps entegrasyonuna “thinking” demediklerini; bu terimi tüm ağın iç döngüsünde, her dış girdiye karşılık gelen “iç tik” için kullandıklarını ve bunun “thinking”e benzer olduğunu açıkça yazdıklarını belirtiyor.
    • Bu makaleyi acaba Jürgen Schmidhuber mi yazdı diye merak ettim.
  • Bu önemli konuya yeniden odaklanılmasını görmek gerçekten sevindirici. Biyolojik beyin ve beden bağlamında “zaman”ı doğrusal Newtoncu zaman gibi düşünmek kolay, ama beyin-beden sisteminde kritik olan şey, 300 ms'lik “temsili şimdi”den ses konumunu değerlendiren hücrelerdeki 50 mikrosaniyelik farklı “şimdi” parçalarına kadar uzanan aralıklarda, düzenli davranış ve hesaplama sıraları oluşturmaktır. Koşullu zamansallık hakkında daha fazlasını öğrenmek isterseniz, European Journal of Neuroscience'ta John Bickle'ın RW Williams ile yaptığı röportajı içeren yakın tarihli makaleye bakabilirsiniz.

  • Makale üzerine kendi izlenimim şu: Biyolojik/spiking ağlarla aslında hiç benzemiyor gibi hissettiriyor. Makale, girdilerin geçmişini koruyor ve multi-head attention kullanarak geçmişteki “pre-synaptic” girdilerin mevcut çıktıya nasıl yansıyacağına dair içsel bir model kuruyor. Bu, biraz değiştirilmiş bir transformer gibi; girdi geçmişini saklıyor ve attention ile çıktı üretiyor. “Senkronizasyon” dedikleri şey de tüm post-activation'ların iç çarpımının alınmasıyla elde ediliyor ve bu iç çarpım sonucu ortaya çıkan matris çıktı uzayına projekte ediliyor. Her zaman adımında doğru değeri üretmek için birden fazla çıktının çarpılması gerektiğinden, bu birleşime “senkronizasyon” demiş gibiler. Bu, birden çok çıktı değerini matris halinde birleştirip her bir değerin tekilliğinden çok kombinasyonun önemini öne çıkaran, bir tür “seyreklik” teşviki gibi görünüyor. Aslında bu yöntem, çeşitli alt sistemlerden gelen çıktıları iç çarpımla birleştiren attention'ın temel mekanizması.

    • Makalenin zayıf yanı, performans karşılaştırmasının yalnızca LSTM'lerle, yani basit yinelemeli modellerle sınırlı olması. Sadece çok katmanlı girdi/çıktı attention ile de benzer bir yapı ve performans elde edilebilir gibi geliyor. Gerçek transformer biraz farklı olsa da, makalenin kullandığı input attention + unet yapısından çok uzak değil.
  • Bu hafta sonu ilgimi çeken üç şey var: 1) continuous thought machine'ler (biyolojik beyne benzeyen zaman serisi kodlamalı sinir ağları), 2) “zero data reasoning” (önceden devasa veriyle eğitilmek yerine doğrudan eylemle öğrenen AI), 3) Intellect-2 (dünya geneline dağıtılmış reinforcement learning yapısı). Uzman olmayan biri olarak bakınca, sanki singularity'ye bir adım daha yaklaşılmış gibi geliyor.

    • Bana o kadar güçlü bir his vermiyor. O kadar çok makale ve farklı araştırma yönü var ki, hangisinin diffusion, transformer, AlphaZero, Chat GPT-3 gibi büyük bir patlama yaratacağını öngörmek zor. Radikal ilerleme gibi görünse de, bu tür gelişmeler sayısız araştırma ve deneme-yanılmanın birikimiyle ortaya çıkıyor. Bu üç ilerleme iyi biçimde birleşirse harika olur ama ben de bilmiyorum.
    • Tek tek makalelere fazla büyük anlam yüklememek gerektiğini düşünüyorum. En iyi ihtimalle sayısız temel araştırmayı görmezden gelmeye yol açar; en kötü ihtimalle ise pembe beklentilerle tek bir fikre aşırı anlam yüklenir.
    • Intellect-2 ve zero data reasoning aslında ikisi de LLM üzerinde çalışan yapılar (“zero data reasoning” adı da ayrıca yanıltıcı olabilir). Gerçek bir LLM yeniliği arıyorsanız, InceptionLabs'in diffusion modelleriyle çıkarımı 16 kat artırdığı yönteme bakmak daha iyi olur. Bizim zaman serili reinforcement learning algoritmalarımızın performansı, muhakeme modelleriyle karşılaştırınca hâlâ oldukça zayıf; AI patlamasına rağmen robotik ve otonom sürüş de hâlâ tıkanmış durumda. Bu makaledeki teknik de potansiyel taşıyor olabilir ama birinin terminolojiyi biraz daha rafine edip sindirilebilir hale getirmesi iyi olurdu. Şimdilik, model büyüdükçe ödül fonksiyonundaki açıkları daha iyi bulma eğilimi yüzünden, birçok alanda gerçekten işe yarar AI'ya ulaşmaktan hâlâ uzağız diye düşünüyorum.
    • Makaledeki uygulamaları gerçekten çalıştırdığınızda, sonuçların çoğu zaman makalede pazarlandığı kadar iyi olmadığını ya da kodun eksik olduğunu görüyorsunuz. AI hype'ına kapılmamak için, makalenin somut sonuçlarını ve sınırlarını dikkatle okumak, kod varsa indirip çalıştırmak ve eğitim seti dışındaki girdilerde de test etmek gibi alışkanlıklar gerekli.
    • Ben de uzman değilim ama buna bakınca, sanki kamera, aktüatör ve batarya icat edildi diye robotların yakında dünyayı ele geçireceğini düşünmeye benziyor. Yani bu bir sıçrama değil, daha çok bebek adımı gibi.
    • Eleştiriler kolayca geçiştirilemez. Özellikle çok bilinen makaleler ve projelerin take-off ya da AGI gibi çığır açıcı ilerlemeler olduğu iddiasına ciddi itirazlar olabilir. Ama bu tür makaleler daha büyük bir araştırma yöneliminin temsilcisi de olabilir. Yani sanki “bebek tavşan” küçük küçük ama tutarlı sıçramalar yapıyor gibi. Hangi ana gerçekten sıçrama deneceği bakış açısına göre değişir, ama tavşan yine de ileri gidiyor.
  • Spike timing ve senkronizasyon gibi zamansal kodlama mekanizmalarını uygulamak çok zor; bu yüzden modern sinir ağları zamansal dinamikler yerine sadelik ve hesaplama verimliliğine odaklanıyor. Gerçek zaman alanını simüle etmek donanım açısından da son derece zor bir problem. Özellikle ayrı bir hiperparametre ekseni daha eklediğiniz için, geçerli parametre kombinasyonlarını bulmak neredeyse imkânsız hale geliyor. Hesaplama açısından verimli bir yapı bulmak çok daha hızlı; çünkü gelecekteki zaman adımlarında spike oluştuğunda öncelik kuyruğu benzeri olay yapıları ortaya çıkıyor ve hesaplama yükü bir anda artıyor. Eğer hedef gerçekten “hard real-time interaction” değilse, pratik ve ürün odaklı açıdan bu tür yapıları kovalamakta çok anlam görmüyorum. STDP'nin (spike timing dependent plasticity) çevrimiçi gözetimsiz öğrenmeyi mümkün kılması hâlâ çok çekici, ancak şimdilik silikon tabanlı sistemlerde bunun bir yolu varmış gibi görünmüyor. Özel donanım kullanmak da bazı hiperparametreleri kod içinde sabitlere gömmek anlamına geliyor; bu da ne sağlamlık garantiliyor ne de yeterli finansman sağlıyor.

    • Örneğin orta ölçekli bir FF (feedforward) mimarisinde tek bir giriş batch'ini işlemek 100 ms sürüyorsa, CTM yapısında FF eksenine 10 ms ayırıp bunu 10 iç “tik” ile çarparsanız ne olur? Sayılar kabaca verilmiş ama sonuçta soru şu: açık bir zaman eksenine yönelik tümevarımsal önyargı gerçekten anlamlı mı? Böyle bir yapının da aynı arama zorluğuna sahip olması gerekmez mi?
  • Bu makinelerin fikri baştan sona yeni değil. 2002 tarihli bir makalede Liquid State Machines (LSM) tanıtılmıştı; LSM, sürekli girdileri bir spiking neural network'e verip, ağdaki tüm nöronlara bağlı yoğun bir katmanla liquid state'i okumaya dayanıyordu. 2019 tarihli bir makale ise LSM'yi Atari oyunlarını oynamak için kullandı; zaman zaman insanı aşsa da bunu sürekli başaramadı ve mevcut sinir ağlarının sınırlamalarına benzer başarısızlık eğilimleri de gözlendi. Geleneksel sinir ağlarına kıyasla performansı belirgin biçimde daha yüksek değildi. Ben daha çok, girdiyi (örneğin ses) sürekli işleyen, sürekli çıktı veren ve beynin plasticity ilkelerini yalnızca bunlarla, yani backprop olmadan uygulayan sinir ağı araştırmalarına ilginin artmasını isterdim. Ben de kendim denedim ama beynin nasıl çalıştığını yeterince bilmediğimiz için mi bilmiyorum, henüz kusursuz bir cevap yok gibi.

  • İşin ironik yanı, bu web sayfası Firefox iOS'ta durmadan yenileniyor.

    • Benim tarayıcımda ise hiç açılmıyor bile.
  • Gelecek nesil modellerin anahtarı “birlikte ateşleyen nöronlar birlikte bağlanır” ilkesi olacak. Spiking neural network'lerin alternatif bir yaklaşım olarak son derece ilginç olduğunu düşünüyorum.