1 puan yazan GN⁺ 2026-03-11 | 1 yorum | WhatsApp'ta paylaş
  • Devasa 72B parametreli LLM’in orta bölümündeki 7 katmanı kopyalayıp yeniden birleştirerek, hiçbir eğitim yapmadan liderlik tablosunda 1. sıraya ulaşılan bir örnek
  • Deney iki adet RTX 4090 ile yürütüldü; model ağırlıkları değiştirilmeden yalnızca orta katmanların tekrar çalıştırıldığı yapı değiştirildi
  • Matematiksel akıl yürütme ve duygusal akıl yürütme (EQ) olmak üzere iki küçük proxy görev üzerinden en iyi katman aralığı arandı
  • Sonuçta Qwen2-72B tabanlı RYS-XLarge modeli ortalamada +%2,61 iyileşme sağladı; özellikle MuSR +%17,72, MATH +%8,16 artış kaydetti
  • Bu yaklaşım, LLM içinde ‘işlevsel devrelerin (circuit)’ var olabileceğini gösteriyor ve büyük modellerin ‘nöroanatomik yapısı’ üzerine araştırmalara uzanıyor

Açık LLM liderlik tablosu ve deneyin arka planı

  • 2024 ortasında HuggingFace’in Open LLM Leaderboard’u, açık ağırlıklı modellerin rekabet alanıydı
    • Değerlendirme başlıkları: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
  • Yazar, yeni model eğitimi ya da fine-tuning olmadan, mevcut modelin orta katmanlarının bir kısmını kopyalama yöntemiyle deney yaptı
  • Kopyalanan katmanların, modelin ‘düşünme(thinking)’ sürecinden sorumlu bölüm olduğu tahmin ediliyor

İpucu 1 – Base64 konuşma deneyi

  • LLM’in Base64 ile kodlanmış soruyu anlayıp doğru cevabı Base64 olarak döndürdüğü olgu gözlemlendi
  • Girdi biçimi değişse bile modelin akıl yürütmeye devam etmesi, erken katmanların girdi yorumlama (translation), geç katmanların ise çıktı dönüştürme (re-translation) rolü üstlendiği hipotezini ortaya koydu
  • Buna göre orta katmanların soyut düşünmenin gerçekleştiği bölge olabileceği öne sürüldü

İpucu 2 – Goliath-120B modelinin sıra dışı yapısı

  • HuggingFace’in Goliath-120B modeli, iki Llama-2 70B modelinin çapraz bağlandığı bir yapı ve geç katman çıktısını erken katman girdisine geri besliyor
  • Normal eğitim dağılımının dışında kalan bu yapıya rağmen modelin çalıştığı görüldü
  • Bu da katmanlar arası temsillerin karşılıklı uyumlu olabileceğini ve Transformer içindeki temsillerin homojen olduğunu düşündürüyor

‘Beyin tarayıcısı’ kurmak

  • Qwen2-72B modelinin tüm (i, j) katman aralığı kombinasyonlarını (toplam 3.241 adet) test eden bir pipeline kuruldu
  • Her kombinasyonda belirli bir katman aralığı iki kez geçilecek şekilde model yeniden yapılandırıldı
  • Değerlendirme ölçütlerinin üç koşulu karşılaması gerekiyordu
    • Çıktıyı en aza indirme (hız sağlamak için)
    • Nesnel puanlama yapılabilmesi
    • Bilişsel bağımsızlık (iki görev aynı anda iyileşirse bunun yapısal bir gelişme sayılması)

Proxy görev tasarımı

  • Hard Math Probe: karmaşık aritmetik problemlerin doğru sonucunu doğrudan tahmin etme
  • EQ-Bench Probe: sosyal durumlarda duygunun şiddetini 0~100 arasında tahmin etme
  • Her iki görev de kısa çıktı ve net doğru cevap sunduğu için yapısal değişimi ölçmeye uygundu

Matematik puanlama fonksiyonu ve kısmi doğru değerlendirmesi

  • LLM’in sayısal hatalarını (basamak eksikliği, yer değiştirme vb.) hesaba katmak için kısmi eşleşme puanlama fonksiyonu geliştirildi
  • Kısa cevaplar padding ile tamamlanıp göreli hata hesaplanarak doğruluk oranı sürekli bir puana dönüştürüldü
  • Böylece ince performans farkları nicel olarak ayırt edilebildi

RYS-XLarge modelinin yapısı

  • En iyi kombinasyon (45, 52) oldu; 45~51. katmanlar bir kez daha tekrarlandı
  • Sonuçta 7 orta katman kopyalandı ve toplam parametre sayısı 72B → 78B oldu
  • Ağırlıklar değiştirilmeden, yalnızca yapı düzenlenerek, ek VRAM kullanmadan pointer kopyalama yöntemiyle uygulandı

Liderlik tablosu performansı

Başlık Puan Referansa göre artış
Ortalama 44.75 +%2,61
MATH Lvl 5 38.97 +%8,16
MuSR 23.72 +%17,72
BBH +%2,51
GPQA +%2,58
IFEval -%2,05
  • 5 başlıkta iyileşme görüldü ve ortalama puanla liderlik tablosunda 1. sıraya çıkıldı
  • Geliştirme sürecinde liderlik tablosu başlıkları kullanılmadığı için bu, salt yapısal genelleme etkisi olarak değerlendirildi

Transformer’ın ‘işlevsel devreleri’nin keşfi

  • Tek bir katmanı tekrar etmek etkili olmadı; performans artışı yalnızca ardışık blokların tekrarında görüldü
  • Bu da orta katmanların bağımsız tekrar işlemleri olarak değil, çok aşamalı bir hesaplama devresi (circuit) olarak çalıştığını gösteriyor
  • Örneğin 46~52. katmanlar, tek bir ‘reçete’ gibi aşamalı akıl yürütme yapıyor
    • Tüm bloğu tekrarlamak, akıl yürütmeyi bir kez daha yapma etkisi yaratıyor

Heatmap analizi ve ‘LLM Neuroanatomy’

  • Her bir (i, j) kombinasyonunun performansını görselleştiren ısı haritası, fMRI’ye benzer bir desen gösterdi
  • Matematik görevlerinde orta katmanların tekrarıyla iyileşme görülürken, EQ görevlerinde farklı bölgelerde iyileşme görüldü
  • Bu da Transformer içinde göreve özgü işlevsel devrelerin varlığına işaret ediyor

Hatalı kopyalamanın yan etkileri

  • Bazı kombinasyonlarda model anormal dil tekrarları ve sanrısal çıktılar üretti
  • Bu, belirli devrelerin aşırı genişletilmesinin sonucu olarak görüldü ve ‘yapay beyin hasarı’ benzetmesi yapıldı
  • Örneğin sosyal uygunluk devresinin bozulması, anormal konuşma örüntülerine yol açtı

Sonraki çalışmalar ve türev modeller

  • RYS-XLarge temel alınarak çeşitli araştırmacılar fine-tuning ve ORPO eğitimi ekledi
  • 2026 başı itibarıyla liderlik tablosundaki ilk 4 modelin tamamı RYS yapısını temel alan 78B modeller
    • calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys vb.

Yapısal ölçekleme ve anlamı

  • Katman kopyalama, fine-tuning’den bağımsız ve onunla birlikte uygulanabilir
  • Bu, modelin ‘neyi bildiğini’ değil ‘nasıl düşündüğünü’ değiştirme yöntemi
  • Model büyüdükçe işlevsel alanlar daha belirgin ayrıştığından, devre düzeyinde kopyalama daha etkili oluyor
  • Küçük modellerde ise kodlama, akıl yürütme ve çözümleme işlevleri iç içe geçtiğinden aynı etkinin sınırları var

Gelecek planları

  • Aynı teknik şu anda Qwen, MiniMax, GLM gibi yeni modeller üzerinde uygulanıyor
  • Her modelin kendine özgü bir ‘nöroanatomik yapı’ taşıdığı doğrulandı
  • İleride kodun açık kaynak olarak paylaşılması ve RYS serisinin genişletilmesi planlanıyor
  • Yazar bunu, “artık fare beyni yerine yapay beyin parçalıyoruz” diye ifade ediyor

Sonuç

  • Ağırlıkları değiştirmeden yalnızca katman kopyalayarak LLM performansını artıran bir deney
  • Transformer içinde işlevsel devreler ve yapısal ayrışma bulunduğunu deneysel olarak gösteriyor
  • Bu da model yorumlanabilirliği (mechanistic interpretability) ve verimli mimari ölçekleme için yeni bir yön öneriyor

1 yorum

 
GN⁺ 2026-03-11
Hacker News görüşleri
  • Puanla yorum sayısı arasındaki bu kadar orantısızlık şaşırtıcı
    Yazının gerçekten çok dolu olması ve teknik içeriği sıradan insanların da anlayabileceği şekilde çok iyi anlatması etkileyiciydi
    Özellikle “Goliath'ın çalışmış olması başlı başına şaşırtıcı” kısmının kilit nokta olduğunu düşünüyorum. Neden daha fazla araştırmacının buna dikkat etmediğini merak ediyorum
    Ayrıca yazarın biyoteknolojide beyin araştırırken nasıl GPU bodrumunda(?) yapay zekayla uğraşmaya başladığı da ilginç

    • Eski optogenetics ve CRISPR/Cas9 projelerini de bloga koymayı planlıyorum
      1. Başka makaleler de (Solar10.7B vb.) benzer şeyler denedi ama tüm transformer yığınını kopyalamanın iyi bir fikir olmadığını deneysel olarak doğruladım. Bu, adeta bir “organı” gereksiz yere çoğaltmak gibi, yani verimsiz
      2. Biyoloji araştırması keyifliydi ama makale hakemliği ve fon başvuruları bana göre değildi. Bu yüzden bağımsız araştırmacı olarak blog yazmaya başladım. Belki bir gün biri atıf yapar
    • Kedi beynini köpek kafasına koyma benzetmesi eğlenceliydi. Aslında bunun şaşırtıcı olmadığını düşünüyorum
      CNN'lerin ilk katman çekirdeklerinin Gabor filtrelerine yakınsaması gibi, LLM iç katmanlarının da enerji verimliliği, bilgi sıkıştırma ve entropi optimizasyonu gibi evrensel matematiksel optimizasyonlara yakınsadığını düşünüyorum
  • Keşif sürecini ayrıntılı göstermesi gerçekten çok güzeldi. Sonuçtan çok sürecin kendisi daha ilginç
    Özellikle soyut akıl yürütmeyi üst üste bindirerek performansı artırması ve olasılık dağılımını heatmap ile görselleştirmesi etkileyiciydi
    İlgili makaleler de giderek buna yetişiyor

    • SOLAR / DUS (Kim et al., 2023): transformer katmanlarını kopyalayarak 10.7B'lik bir model üretti ve 30B modelden daha iyi performans gösterdi
    • The Curse of Depth (2025): Pre-LN yapısının derin katmanları identity function'a yakınsattığını ve asıl hesaplamayı orta katmanların yaptığını açıklıyor
    • Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., NeurIPS 2025): tek bir recurrent bloğu tekrar tekrar kullanarak akıl yürütme derinliğini artıran bir yaklaşım sunuyor
    • Övgü için teşekkürler!
      Yine de SOLAR gibi modellerin sonunda bir sınıra toslayacağını düşünüyorum. Heatmap'e bakınca transformer yığınının başlangıçta rastgele ağırlıklarla başlayıp eğitim sırasında giderek “organ” gibi uzmanlaşmış bir yapıya dönüştüğü görülüyor
      “token-to-thought” ve “thought-to-token” gibi organların yalnızca birer tane olması gerekir. Sonuçta uzmanlaşmış yapıların her zaman kazanacağını düşünüyorum
  • “Goliath'ın çalışmasının şaşırtıcı olması” fikrine katılıyorum
    Daha önce de birden fazla modeli birleştiren deneyler vardı ama çoğu Reddit veya Discord'daki topluluk deneyleri seviyesindeydi. Akademi ya da şirket araştırmacıları bunu pek önemsemedi
    Yine de Llama ve Qwen gibi tamamen farklı modellerin katmanlarını karıştırınca da bunun çalışıp çalışmayacağını merak ediyorum
    Ayrıca LLM'lerin aritmetik sorularda son rakamı atlaması ya da sırayı bozması gibi garip hatalar yapmasının nedeni de ilginç. Dilbilgisel ayrıştırmayı zorunlu kılmanın bunu iyileştirip iyileştirmeyeceğini denemek isterdim

    • Farklı modelleri karıştırmak, embedding boyutu ya da sözlük farkları yüzünden zor olur diye düşünüyorum. Mimari aynı olsa bile eğitim verisi farklıysa iç temsiller de farklı olabilir. Yine de denemesi eğlenceli olabilir
    • Bu tür konular hobi araştırmacıları için uygun bir alan. Şirketler mevcut modelleri fine-tune etmeye odaklanıyor çünkü
    • Çok basamaklı sayılar, olası token kombinasyonlarının fazlalığı nedeniyle karmaşık. Blogdaki kod, kısmi doğru cevaplardan faydalı metrikler çıkarmaya yardımcı oluyor
  • LLM içinde gizli bir bilişsel ortak dilin (cognitive lingua franca) bulunabileceği fikri ilginç
    Bu kullanılarak tak-çalıştır bilgi bankaları yapılabilir belki.
    Yalnızca ihtiyaç duyulan bilgiyi takıp kullanan ince modellerle, tüm modeli yeniden eğitmeden güncel bilgiyi korumak mümkün olabilir

    • “Bilgi bankasını takmak” ifadesi hoşuma gitti — LLM: “...artık kung fu biliyorum”
    • Gelecekteki LLM'ler, standartlaştırılmış encoding/decoding katmanlarının mantık katmanlarına takıldığı bir yapıya dönüşebilir
    • Böyle bir yapıda halüsinasyonların (hallucination) da azalması mümkün olabilir
    • Aslında bunun, LoRA'nın zaten yaptığı şeye benzediğini düşünüyorum
  • Yazarın söz ettiği gizil uzay akıl yürütmesi (latent space reasoning) gerçekten etkileyiciydi
    Sadece katmanları kopyalayarak eğitimin geriye doğru yayılabilmesi şaşırtıcı.
    Kopyalanan katmanlar döngüye alınırsa performansın nasıl değişeceğini de merak ediyorum. MoE modelleriyle karşılaştırınca her katmanın bağımsız bir uzman gibi davranıp davranmadığı görülebilir

    • Tek tek katmanları kopyalamayı denedim ama büyük bir etkisi olmadı. Hatta çıktı→girdi geri beslemesi çoğu zaman zararlı oldu
      Ama birden fazla bölgede katmanları çoklu kopyalayıp bunların birleşimini XGBoost tabanlı bir meta modelle tahmin etme deneyi ilginçti. MoE ile de iyi çalışıyor
      Yalnız eşim bu zaman kaybını(?) pek sevmiyor
    • LoopLM da benzer bir fikri ele alıyor gibi görünüyor
  • LLM'lerde “beyin ameliyatı” fikri büyüleyici. llama.cpp görsel modeli desteklemeye başladığında, projector'dan üretilen embedding'lerin bir kısmını 0 yapıp LLM'den resmi açıklamasını istemiştim
    Bunun sonucunda gerçekte olmayan insanlar ya da arka planlar uydurması gibi şaşırtıcı sonuçlar çıkmıştı.
    Bir gün vektör boyutları ile anlam arasındaki ilişkiyi sistematik biçimde denemek istiyorum

    • Şu an hacker olmak için harika bir dönem
  • Benim de ara katmanların kullanımı konusunda benzer bir sezgim vardı.
    Bu YouTube videosunu izledikten sonra düşüncelerimi toparladım ve katmanlar döngüye alındıkça sıralarının sabit olmasının gerekmediği sonucuna vardım
    Eğer döngü sırasında bazı katmanlar gereksizse atlanabiliyor ve yalnızca gerekenler tekrarlanabiliyorsa, bu sonuçta tek katmanlı bir MOE modeline dönüşebilir.
    Ne kadar derin düşüneceğini ayarlayan bir akıl yürütme yoğunluğu düğmesi gibi bir kavram da mümkün olabilir

    • İlginç bir fikir. Ama katman sırasını tamamen rastgeleleştirmek kombinatoryal patlama sorununa yol açabilir
      Yine de transformer bloklarının çağrılma sırasını rastgeleleştirip performansın nasıl değiştiğini denemek ilginç olurdu
  • Yazıyı okurken bilginin geometrik yapısı fikrine yakın hissettim.
    Farklı alanlar arasında gezinen genelci düşünme biçiminin bu tür sinirsel yapıları yansıttığı hissi var.
    Sayenizde günüm güzelleşti

    • Teşekkürler
  • Yaklaşık 7 katman bloğunun çalışması, ama bunun üstü ya da altının çalışmaması ilginç
    Bu, transformer içinde hâlâ anlamadığımız işlevsel birimlerin (“organların”) bulunduğuna işaret ediyor
    Qwen dışında Llama veya Mistral gibi başka mimarilerde de aynı “7 katman sihri” görülüyor mu merak ediyorum

  • Bu fikir bende iki soru uyandırıyor

    1. Model baştan itibaren böyle bir döngü yapısıyla mı eğitilmeli?
    2. Sabit katman sayısı kullanmak gerçekten doğru mu?
      Eğer model iç katman değişikliklerine bu kadar toleranslıysa, her token için tüm katmanları çalıştırmak gerekmeyebilir
      Sorunun zorluğuna göre tekrar sayısını ayarlayan bir model yapılırsa, kolay problemleri hızlıca, zor olanları ise daha derin akıl yürüterek çözebilir
      Eğitim sırasında kendi güvenini (confidence) tahmin edip ek hesaplama gerekip gerekmediğine de karar verebilir