- Devasa 72B parametreli LLM’in orta bölümündeki 7 katmanı kopyalayıp yeniden birleştirerek, hiçbir eğitim yapmadan liderlik tablosunda 1. sıraya ulaşılan bir örnek
- Deney iki adet RTX 4090 ile yürütüldü; model ağırlıkları değiştirilmeden yalnızca orta katmanların tekrar çalıştırıldığı yapı değiştirildi
- Matematiksel akıl yürütme ve duygusal akıl yürütme (EQ) olmak üzere iki küçük proxy görev üzerinden en iyi katman aralığı arandı
- Sonuçta Qwen2-72B tabanlı RYS-XLarge modeli ortalamada +%2,61 iyileşme sağladı; özellikle MuSR +%17,72, MATH +%8,16 artış kaydetti
- Bu yaklaşım, LLM içinde ‘işlevsel devrelerin (circuit)’ var olabileceğini gösteriyor ve büyük modellerin ‘nöroanatomik yapısı’ üzerine araştırmalara uzanıyor
Açık LLM liderlik tablosu ve deneyin arka planı
- 2024 ortasında HuggingFace’in Open LLM Leaderboard’u, açık ağırlıklı modellerin rekabet alanıydı
- Değerlendirme başlıkları: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
- Yazar, yeni model eğitimi ya da fine-tuning olmadan, mevcut modelin orta katmanlarının bir kısmını kopyalama yöntemiyle deney yaptı
- Kopyalanan katmanların, modelin ‘düşünme(thinking)’ sürecinden sorumlu bölüm olduğu tahmin ediliyor
İpucu 1 – Base64 konuşma deneyi
- LLM’in Base64 ile kodlanmış soruyu anlayıp doğru cevabı Base64 olarak döndürdüğü olgu gözlemlendi
- Girdi biçimi değişse bile modelin akıl yürütmeye devam etmesi, erken katmanların girdi yorumlama (translation), geç katmanların ise çıktı dönüştürme (re-translation) rolü üstlendiği hipotezini ortaya koydu
- Buna göre orta katmanların soyut düşünmenin gerçekleştiği bölge olabileceği öne sürüldü
İpucu 2 – Goliath-120B modelinin sıra dışı yapısı
- HuggingFace’in Goliath-120B modeli, iki Llama-2 70B modelinin çapraz bağlandığı bir yapı ve geç katman çıktısını erken katman girdisine geri besliyor
- Normal eğitim dağılımının dışında kalan bu yapıya rağmen modelin çalıştığı görüldü
- Bu da katmanlar arası temsillerin karşılıklı uyumlu olabileceğini ve Transformer içindeki temsillerin homojen olduğunu düşündürüyor
‘Beyin tarayıcısı’ kurmak
- Qwen2-72B modelinin tüm (i, j) katman aralığı kombinasyonlarını (toplam 3.241 adet) test eden bir pipeline kuruldu
- Her kombinasyonda belirli bir katman aralığı iki kez geçilecek şekilde model yeniden yapılandırıldı
- Değerlendirme ölçütlerinin üç koşulu karşılaması gerekiyordu
- Çıktıyı en aza indirme (hız sağlamak için)
- Nesnel puanlama yapılabilmesi
- Bilişsel bağımsızlık (iki görev aynı anda iyileşirse bunun yapısal bir gelişme sayılması)
Proxy görev tasarımı
- Hard Math Probe: karmaşık aritmetik problemlerin doğru sonucunu doğrudan tahmin etme
- EQ-Bench Probe: sosyal durumlarda duygunun şiddetini 0~100 arasında tahmin etme
- Her iki görev de kısa çıktı ve net doğru cevap sunduğu için yapısal değişimi ölçmeye uygundu
Matematik puanlama fonksiyonu ve kısmi doğru değerlendirmesi
- LLM’in sayısal hatalarını (basamak eksikliği, yer değiştirme vb.) hesaba katmak için kısmi eşleşme puanlama fonksiyonu geliştirildi
- Kısa cevaplar padding ile tamamlanıp göreli hata hesaplanarak doğruluk oranı sürekli bir puana dönüştürüldü
- Böylece ince performans farkları nicel olarak ayırt edilebildi
RYS-XLarge modelinin yapısı
- En iyi kombinasyon (45, 52) oldu; 45~51. katmanlar bir kez daha tekrarlandı
- Sonuçta 7 orta katman kopyalandı ve toplam parametre sayısı 72B → 78B oldu
- Ağırlıklar değiştirilmeden, yalnızca yapı düzenlenerek, ek VRAM kullanmadan pointer kopyalama yöntemiyle uygulandı
Liderlik tablosu performansı
| Başlık |
Puan |
Referansa göre artış |
| Ortalama |
44.75 |
+%2,61 |
| MATH Lvl 5 |
38.97 |
+%8,16 |
| MuSR |
23.72 |
+%17,72 |
| BBH |
+%2,51 |
|
| GPQA |
+%2,58 |
|
| IFEval |
-%2,05 |
|
- 5 başlıkta iyileşme görüldü ve ortalama puanla liderlik tablosunda 1. sıraya çıkıldı
- Geliştirme sürecinde liderlik tablosu başlıkları kullanılmadığı için bu, salt yapısal genelleme etkisi olarak değerlendirildi
Transformer’ın ‘işlevsel devreleri’nin keşfi
- Tek bir katmanı tekrar etmek etkili olmadı; performans artışı yalnızca ardışık blokların tekrarında görüldü
- Bu da orta katmanların bağımsız tekrar işlemleri olarak değil, çok aşamalı bir hesaplama devresi (circuit) olarak çalıştığını gösteriyor
- Örneğin 46~52. katmanlar, tek bir ‘reçete’ gibi aşamalı akıl yürütme yapıyor
- Tüm bloğu tekrarlamak, akıl yürütmeyi bir kez daha yapma etkisi yaratıyor
Heatmap analizi ve ‘LLM Neuroanatomy’
- Her bir (i, j) kombinasyonunun performansını görselleştiren ısı haritası, fMRI’ye benzer bir desen gösterdi
- Matematik görevlerinde orta katmanların tekrarıyla iyileşme görülürken, EQ görevlerinde farklı bölgelerde iyileşme görüldü
- Bu da Transformer içinde göreve özgü işlevsel devrelerin varlığına işaret ediyor
Hatalı kopyalamanın yan etkileri
- Bazı kombinasyonlarda model anormal dil tekrarları ve sanrısal çıktılar üretti
- Bu, belirli devrelerin aşırı genişletilmesinin sonucu olarak görüldü ve ‘yapay beyin hasarı’ benzetmesi yapıldı
- Örneğin sosyal uygunluk devresinin bozulması, anormal konuşma örüntülerine yol açtı
Sonraki çalışmalar ve türev modeller
- RYS-XLarge temel alınarak çeşitli araştırmacılar fine-tuning ve ORPO eğitimi ekledi
- 2026 başı itibarıyla liderlik tablosundaki ilk 4 modelin tamamı RYS yapısını temel alan 78B modeller
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys vb.
Yapısal ölçekleme ve anlamı
- Katman kopyalama, fine-tuning’den bağımsız ve onunla birlikte uygulanabilir
- Bu, modelin ‘neyi bildiğini’ değil ‘nasıl düşündüğünü’ değiştirme yöntemi
- Model büyüdükçe işlevsel alanlar daha belirgin ayrıştığından, devre düzeyinde kopyalama daha etkili oluyor
- Küçük modellerde ise kodlama, akıl yürütme ve çözümleme işlevleri iç içe geçtiğinden aynı etkinin sınırları var
Gelecek planları
- Aynı teknik şu anda Qwen, MiniMax, GLM gibi yeni modeller üzerinde uygulanıyor
- Her modelin kendine özgü bir ‘nöroanatomik yapı’ taşıdığı doğrulandı
- İleride kodun açık kaynak olarak paylaşılması ve RYS serisinin genişletilmesi planlanıyor
- Yazar bunu, “artık fare beyni yerine yapay beyin parçalıyoruz” diye ifade ediyor
Sonuç
- Ağırlıkları değiştirmeden yalnızca katman kopyalayarak LLM performansını artıran bir deney
- Transformer içinde işlevsel devreler ve yapısal ayrışma bulunduğunu deneysel olarak gösteriyor
- Bu da model yorumlanabilirliği (mechanistic interpretability) ve verimli mimari ölçekleme için yeni bir yön öneriyor
1 yorum
Hacker News görüşleri
Puanla yorum sayısı arasındaki bu kadar orantısızlık şaşırtıcı
Yazının gerçekten çok dolu olması ve teknik içeriği sıradan insanların da anlayabileceği şekilde çok iyi anlatması etkileyiciydi
Özellikle “Goliath'ın çalışmış olması başlı başına şaşırtıcı” kısmının kilit nokta olduğunu düşünüyorum. Neden daha fazla araştırmacının buna dikkat etmediğini merak ediyorum
Ayrıca yazarın biyoteknolojide beyin araştırırken nasıl GPU bodrumunda(?) yapay zekayla uğraşmaya başladığı da ilginç
CNN'lerin ilk katman çekirdeklerinin Gabor filtrelerine yakınsaması gibi, LLM iç katmanlarının da enerji verimliliği, bilgi sıkıştırma ve entropi optimizasyonu gibi evrensel matematiksel optimizasyonlara yakınsadığını düşünüyorum
Keşif sürecini ayrıntılı göstermesi gerçekten çok güzeldi. Sonuçtan çok sürecin kendisi daha ilginç
Özellikle soyut akıl yürütmeyi üst üste bindirerek performansı artırması ve olasılık dağılımını heatmap ile görselleştirmesi etkileyiciydi
İlgili makaleler de giderek buna yetişiyor
Yine de SOLAR gibi modellerin sonunda bir sınıra toslayacağını düşünüyorum. Heatmap'e bakınca transformer yığınının başlangıçta rastgele ağırlıklarla başlayıp eğitim sırasında giderek “organ” gibi uzmanlaşmış bir yapıya dönüştüğü görülüyor
“token-to-thought” ve “thought-to-token” gibi organların yalnızca birer tane olması gerekir. Sonuçta uzmanlaşmış yapıların her zaman kazanacağını düşünüyorum
“Goliath'ın çalışmasının şaşırtıcı olması” fikrine katılıyorum
Daha önce de birden fazla modeli birleştiren deneyler vardı ama çoğu Reddit veya Discord'daki topluluk deneyleri seviyesindeydi. Akademi ya da şirket araştırmacıları bunu pek önemsemedi
Yine de Llama ve Qwen gibi tamamen farklı modellerin katmanlarını karıştırınca da bunun çalışıp çalışmayacağını merak ediyorum
Ayrıca LLM'lerin aritmetik sorularda son rakamı atlaması ya da sırayı bozması gibi garip hatalar yapmasının nedeni de ilginç. Dilbilgisel ayrıştırmayı zorunlu kılmanın bunu iyileştirip iyileştirmeyeceğini denemek isterdim
LLM içinde gizli bir bilişsel ortak dilin (cognitive lingua franca) bulunabileceği fikri ilginç
Bu kullanılarak tak-çalıştır bilgi bankaları yapılabilir belki.
Yalnızca ihtiyaç duyulan bilgiyi takıp kullanan ince modellerle, tüm modeli yeniden eğitmeden güncel bilgiyi korumak mümkün olabilir
Yazarın söz ettiği gizil uzay akıl yürütmesi (latent space reasoning) gerçekten etkileyiciydi
Sadece katmanları kopyalayarak eğitimin geriye doğru yayılabilmesi şaşırtıcı.
Kopyalanan katmanlar döngüye alınırsa performansın nasıl değişeceğini de merak ediyorum. MoE modelleriyle karşılaştırınca her katmanın bağımsız bir uzman gibi davranıp davranmadığı görülebilir
Ama birden fazla bölgede katmanları çoklu kopyalayıp bunların birleşimini XGBoost tabanlı bir meta modelle tahmin etme deneyi ilginçti. MoE ile de iyi çalışıyor
Yalnız eşim bu zaman kaybını(?) pek sevmiyor
LLM'lerde “beyin ameliyatı” fikri büyüleyici. llama.cpp görsel modeli desteklemeye başladığında, projector'dan üretilen embedding'lerin bir kısmını 0 yapıp LLM'den resmi açıklamasını istemiştim
Bunun sonucunda gerçekte olmayan insanlar ya da arka planlar uydurması gibi şaşırtıcı sonuçlar çıkmıştı.
Bir gün vektör boyutları ile anlam arasındaki ilişkiyi sistematik biçimde denemek istiyorum
Benim de ara katmanların kullanımı konusunda benzer bir sezgim vardı.
Bu YouTube videosunu izledikten sonra düşüncelerimi toparladım ve katmanlar döngüye alındıkça sıralarının sabit olmasının gerekmediği sonucuna vardım
Eğer döngü sırasında bazı katmanlar gereksizse atlanabiliyor ve yalnızca gerekenler tekrarlanabiliyorsa, bu sonuçta tek katmanlı bir MOE modeline dönüşebilir.
Ne kadar derin düşüneceğini ayarlayan bir akıl yürütme yoğunluğu düğmesi gibi bir kavram da mümkün olabilir
Yine de transformer bloklarının çağrılma sırasını rastgeleleştirip performansın nasıl değiştiğini denemek ilginç olurdu
Yazıyı okurken bilginin geometrik yapısı fikrine yakın hissettim.
Farklı alanlar arasında gezinen genelci düşünme biçiminin bu tür sinirsel yapıları yansıttığı hissi var.
Sayenizde günüm güzelleşti
Yaklaşık 7 katman bloğunun çalışması, ama bunun üstü ya da altının çalışmaması ilginç
Bu, transformer içinde hâlâ anlamadığımız işlevsel birimlerin (“organların”) bulunduğuna işaret ediyor
Qwen dışında Llama veya Mistral gibi başka mimarilerde de aynı “7 katman sihri” görülüyor mu merak ediyorum
Bu fikir bende iki soru uyandırıyor
Eğer model iç katman değişikliklerine bu kadar toleranslıysa, her token için tüm katmanları çalıştırmak gerekmeyebilir
Sorunun zorluğuna göre tekrar sayısını ayarlayan bir model yapılırsa, kolay problemleri hızlıca, zor olanları ise daha derin akıl yürüterek çözebilir
Eğitim sırasında kendi güvenini (confidence) tahmin edip ek hesaplama gerekip gerekmediğine de karar verebilir