HuggingFace açık LLM liderlik tablosunda 1. sıraya nasıl çıktı – iki oyun GPU’suyla, ağırlıkları değiştirmeden

(dnhkng.github.io)

1 puan yazan GN⁺ 2026-03-11 | 1 yorum | WhatsApp'ta paylaş

Devasa 72B parametreli LLM’in orta bölümündeki 7 katmanı kopyalayıp yeniden birleştirerek, hiçbir eğitim yapmadan liderlik tablosunda 1. sıraya ulaşılan bir örnek
Deney iki adet RTX 4090 ile yürütüldü; model ağırlıkları değiştirilmeden yalnızca orta katmanların tekrar çalıştırıldığı yapı değiştirildi
Matematiksel akıl yürütme ve duygusal akıl yürütme (EQ) olmak üzere iki küçük proxy görev üzerinden en iyi katman aralığı arandı
Sonuçta Qwen2-72B tabanlı RYS-XLarge modeli ortalamada +%2,61 iyileşme sağladı; özellikle MuSR +%17,72, MATH +%8,16 artış kaydetti
Bu yaklaşım, LLM içinde ‘işlevsel devrelerin (circuit)’ var olabileceğini gösteriyor ve büyük modellerin ‘nöroanatomik yapısı’ üzerine araştırmalara uzanıyor

Açık LLM liderlik tablosu ve deneyin arka planı

2024 ortasında HuggingFace’in Open LLM Leaderboard’u, açık ağırlıklı modellerin rekabet alanıydı
- Değerlendirme başlıkları: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
Yazar, yeni model eğitimi ya da fine-tuning olmadan, mevcut modelin orta katmanlarının bir kısmını kopyalama yöntemiyle deney yaptı
Kopyalanan katmanların, modelin ‘düşünme(thinking)’ sürecinden sorumlu bölüm olduğu tahmin ediliyor

İpucu 1 – Base64 konuşma deneyi

LLM’in Base64 ile kodlanmış soruyu anlayıp doğru cevabı Base64 olarak döndürdüğü olgu gözlemlendi
Girdi biçimi değişse bile modelin akıl yürütmeye devam etmesi, erken katmanların girdi yorumlama (translation), geç katmanların ise çıktı dönüştürme (re-translation) rolü üstlendiği hipotezini ortaya koydu
Buna göre orta katmanların soyut düşünmenin gerçekleştiği bölge olabileceği öne sürüldü

İpucu 2 – Goliath-120B modelinin sıra dışı yapısı

HuggingFace’in Goliath-120B modeli, iki Llama-2 70B modelinin çapraz bağlandığı bir yapı ve geç katman çıktısını erken katman girdisine geri besliyor
Normal eğitim dağılımının dışında kalan bu yapıya rağmen modelin çalıştığı görüldü
Bu da katmanlar arası temsillerin karşılıklı uyumlu olabileceğini ve Transformer içindeki temsillerin homojen olduğunu düşündürüyor

‘Beyin tarayıcısı’ kurmak

Qwen2-72B modelinin tüm (i, j) katman aralığı kombinasyonlarını (toplam 3.241 adet) test eden bir pipeline kuruldu
Her kombinasyonda belirli bir katman aralığı iki kez geçilecek şekilde model yeniden yapılandırıldı
Değerlendirme ölçütlerinin üç koşulu karşılaması gerekiyordu
- Çıktıyı en aza indirme (hız sağlamak için)
- Nesnel puanlama yapılabilmesi
- Bilişsel bağımsızlık (iki görev aynı anda iyileşirse bunun yapısal bir gelişme sayılması)

Proxy görev tasarımı

Hard Math Probe: karmaşık aritmetik problemlerin doğru sonucunu doğrudan tahmin etme
EQ-Bench Probe: sosyal durumlarda duygunun şiddetini 0~100 arasında tahmin etme
Her iki görev de kısa çıktı ve net doğru cevap sunduğu için yapısal değişimi ölçmeye uygundu

Matematik puanlama fonksiyonu ve kısmi doğru değerlendirmesi

LLM’in sayısal hatalarını (basamak eksikliği, yer değiştirme vb.) hesaba katmak için kısmi eşleşme puanlama fonksiyonu geliştirildi
Kısa cevaplar padding ile tamamlanıp göreli hata hesaplanarak doğruluk oranı sürekli bir puana dönüştürüldü
Böylece ince performans farkları nicel olarak ayırt edilebildi

RYS-XLarge modelinin yapısı

En iyi kombinasyon (45, 52) oldu; 45~51. katmanlar bir kez daha tekrarlandı
Sonuçta 7 orta katman kopyalandı ve toplam parametre sayısı 72B → 78B oldu
Ağırlıklar değiştirilmeden, yalnızca yapı düzenlenerek, ek VRAM kullanmadan pointer kopyalama yöntemiyle uygulandı

Liderlik tablosu performansı

Başlık	Puan	Referansa göre artış
Ortalama	44.75	+%2,61
MATH Lvl 5	38.97	+%8,16
MuSR	23.72	+%17,72
BBH	+%2,51
GPQA	+%2,58
IFEval	-%2,05

5 başlıkta iyileşme görüldü ve ortalama puanla liderlik tablosunda 1. sıraya çıkıldı
Geliştirme sürecinde liderlik tablosu başlıkları kullanılmadığı için bu, salt yapısal genelleme etkisi olarak değerlendirildi

Transformer’ın ‘işlevsel devreleri’nin keşfi

Tek bir katmanı tekrar etmek etkili olmadı; performans artışı yalnızca ardışık blokların tekrarında görüldü
Bu da orta katmanların bağımsız tekrar işlemleri olarak değil, çok aşamalı bir hesaplama devresi (circuit) olarak çalıştığını gösteriyor
Örneğin 46~52. katmanlar, tek bir ‘reçete’ gibi aşamalı akıl yürütme yapıyor
- Tüm bloğu tekrarlamak, akıl yürütmeyi bir kez daha yapma etkisi yaratıyor

Heatmap analizi ve ‘LLM Neuroanatomy’

Her bir (i, j) kombinasyonunun performansını görselleştiren ısı haritası, fMRI’ye benzer bir desen gösterdi
Matematik görevlerinde orta katmanların tekrarıyla iyileşme görülürken, EQ görevlerinde farklı bölgelerde iyileşme görüldü
Bu da Transformer içinde göreve özgü işlevsel devrelerin varlığına işaret ediyor

Hatalı kopyalamanın yan etkileri

Bazı kombinasyonlarda model anormal dil tekrarları ve sanrısal çıktılar üretti
Bu, belirli devrelerin aşırı genişletilmesinin sonucu olarak görüldü ve ‘yapay beyin hasarı’ benzetmesi yapıldı
Örneğin sosyal uygunluk devresinin bozulması, anormal konuşma örüntülerine yol açtı

Sonraki çalışmalar ve türev modeller

RYS-XLarge temel alınarak çeşitli araştırmacılar fine-tuning ve ORPO eğitimi ekledi
2026 başı itibarıyla liderlik tablosundaki ilk 4 modelin tamamı RYS yapısını temel alan 78B modeller
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys vb.

Yapısal ölçekleme ve anlamı

Katman kopyalama, fine-tuning’den bağımsız ve onunla birlikte uygulanabilir
Bu, modelin ‘neyi bildiğini’ değil ‘nasıl düşündüğünü’ değiştirme yöntemi
Model büyüdükçe işlevsel alanlar daha belirgin ayrıştığından, devre düzeyinde kopyalama daha etkili oluyor
Küçük modellerde ise kodlama, akıl yürütme ve çözümleme işlevleri iç içe geçtiğinden aynı etkinin sınırları var

Gelecek planları

Aynı teknik şu anda Qwen, MiniMax, GLM gibi yeni modeller üzerinde uygulanıyor
Her modelin kendine özgü bir ‘nöroanatomik yapı’ taşıdığı doğrulandı
İleride kodun açık kaynak olarak paylaşılması ve RYS serisinin genişletilmesi planlanıyor
Yazar bunu, “artık fare beyni yerine yapay beyin parçalıyoruz” diye ifade ediyor

Sonuç

Ağırlıkları değiştirmeden yalnızca katman kopyalayarak LLM performansını artıran bir deney
Transformer içinde işlevsel devreler ve yapısal ayrışma bulunduğunu deneysel olarak gösteriyor
Bu da model yorumlanabilirliği (mechanistic interpretability) ve verimli mimari ölçekleme için yeni bir yön öneriyor

1 yorum

GN⁺ 2026-03-11

Hacker News görüşleri

Puanla yorum sayısı arasındaki bu kadar orantısızlık şaşırtıcı
Yazının gerçekten çok dolu olması ve teknik içeriği sıradan insanların da anlayabileceği şekilde çok iyi anlatması etkileyiciydi
Özellikle “Goliath'ın çalışmış olması başlı başına şaşırtıcı” kısmının kilit nokta olduğunu düşünüyorum. Neden daha fazla araştırmacının buna dikkat etmediğini merak ediyorum
Ayrıca yazarın biyoteknolojide beyin araştırırken nasıl GPU bodrumunda(?) yapay zekayla uğraşmaya başladığı da ilginç
- Eski optogenetics ve CRISPR/Cas9 projelerini de bloga koymayı planlıyorum
  1. Başka makaleler de (Solar10.7B vb.) benzer şeyler denedi ama tüm transformer yığınını kopyalamanın iyi bir fikir olmadığını deneysel olarak doğruladım. Bu, adeta bir “organı” gereksiz yere çoğaltmak gibi, yani verimsiz
  2. Biyoloji araştırması keyifliydi ama makale hakemliği ve fon başvuruları bana göre değildi. Bu yüzden bağımsız araştırmacı olarak blog yazmaya başladım. Belki bir gün biri atıf yapar
- Kedi beynini köpek kafasına koyma benzetmesi eğlenceliydi. Aslında bunun şaşırtıcı olmadığını düşünüyorum
  CNN'lerin ilk katman çekirdeklerinin Gabor filtrelerine yakınsaması gibi, LLM iç katmanlarının da enerji verimliliği, bilgi sıkıştırma ve entropi optimizasyonu gibi evrensel matematiksel optimizasyonlara yakınsadığını düşünüyorum
Keşif sürecini ayrıntılı göstermesi gerçekten çok güzeldi. Sonuçtan çok sürecin kendisi daha ilginç
Özellikle soyut akıl yürütmeyi üst üste bindirerek performansı artırması ve olasılık dağılımını heatmap ile görselleştirmesi etkileyiciydi
İlgili makaleler de giderek buna yetişiyor
- SOLAR / DUS (Kim et al., 2023): transformer katmanlarını kopyalayarak 10.7B'lik bir model üretti ve 30B modelden daha iyi performans gösterdi
- The Curse of Depth (2025): Pre-LN yapısının derin katmanları identity function'a yakınsattığını ve asıl hesaplamayı orta katmanların yaptığını açıklıyor
- Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., NeurIPS 2025): tek bir recurrent bloğu tekrar tekrar kullanarak akıl yürütme derinliğini artıran bir yaklaşım sunuyor
- Övgü için teşekkürler!
  Yine de SOLAR gibi modellerin sonunda bir sınıra toslayacağını düşünüyorum. Heatmap'e bakınca transformer yığınının başlangıçta rastgele ağırlıklarla başlayıp eğitim sırasında giderek “organ” gibi uzmanlaşmış bir yapıya dönüştüğü görülüyor
  “token-to-thought” ve “thought-to-token” gibi organların yalnızca birer tane olması gerekir. Sonuçta uzmanlaşmış yapıların her zaman kazanacağını düşünüyorum
“Goliath'ın çalışmasının şaşırtıcı olması” fikrine katılıyorum
Daha önce de birden fazla modeli birleştiren deneyler vardı ama çoğu Reddit veya Discord'daki topluluk deneyleri seviyesindeydi. Akademi ya da şirket araştırmacıları bunu pek önemsemedi
Yine de Llama ve Qwen gibi tamamen farklı modellerin katmanlarını karıştırınca da bunun çalışıp çalışmayacağını merak ediyorum
Ayrıca LLM'lerin aritmetik sorularda son rakamı atlaması ya da sırayı bozması gibi garip hatalar yapmasının nedeni de ilginç. Dilbilgisel ayrıştırmayı zorunlu kılmanın bunu iyileştirip iyileştirmeyeceğini denemek isterdim
- Farklı modelleri karıştırmak, embedding boyutu ya da sözlük farkları yüzünden zor olur diye düşünüyorum. Mimari aynı olsa bile eğitim verisi farklıysa iç temsiller de farklı olabilir. Yine de denemesi eğlenceli olabilir
- Bu tür konular hobi araştırmacıları için uygun bir alan. Şirketler mevcut modelleri fine-tune etmeye odaklanıyor çünkü
- Çok basamaklı sayılar, olası token kombinasyonlarının fazlalığı nedeniyle karmaşık. Blogdaki kod, kısmi doğru cevaplardan faydalı metrikler çıkarmaya yardımcı oluyor
LLM içinde gizli bir bilişsel ortak dilin (cognitive lingua franca) bulunabileceği fikri ilginç
Bu kullanılarak tak-çalıştır bilgi bankaları yapılabilir belki.
Yalnızca ihtiyaç duyulan bilgiyi takıp kullanan ince modellerle, tüm modeli yeniden eğitmeden güncel bilgiyi korumak mümkün olabilir
- “Bilgi bankasını takmak” ifadesi hoşuma gitti — LLM: “...artık kung fu biliyorum”
- Gelecekteki LLM'ler, standartlaştırılmış encoding/decoding katmanlarının mantık katmanlarına takıldığı bir yapıya dönüşebilir
- Böyle bir yapıda halüsinasyonların (hallucination) da azalması mümkün olabilir
- Aslında bunun, LoRA'nın zaten yaptığı şeye benzediğini düşünüyorum
Yazarın söz ettiği gizil uzay akıl yürütmesi (latent space reasoning) gerçekten etkileyiciydi
Sadece katmanları kopyalayarak eğitimin geriye doğru yayılabilmesi şaşırtıcı.
Kopyalanan katmanlar döngüye alınırsa performansın nasıl değişeceğini de merak ediyorum. MoE modelleriyle karşılaştırınca her katmanın bağımsız bir uzman gibi davranıp davranmadığı görülebilir
- Tek tek katmanları kopyalamayı denedim ama büyük bir etkisi olmadı. Hatta çıktı→girdi geri beslemesi çoğu zaman zararlı oldu
  Ama birden fazla bölgede katmanları çoklu kopyalayıp bunların birleşimini XGBoost tabanlı bir meta modelle tahmin etme deneyi ilginçti. MoE ile de iyi çalışıyor
  Yalnız eşim bu zaman kaybını(?) pek sevmiyor
- LoopLM da benzer bir fikri ele alıyor gibi görünüyor
LLM'lerde “beyin ameliyatı” fikri büyüleyici. llama.cpp görsel modeli desteklemeye başladığında, projector'dan üretilen embedding'lerin bir kısmını 0 yapıp LLM'den resmi açıklamasını istemiştim
Bunun sonucunda gerçekte olmayan insanlar ya da arka planlar uydurması gibi şaşırtıcı sonuçlar çıkmıştı.
Bir gün vektör boyutları ile anlam arasındaki ilişkiyi sistematik biçimde denemek istiyorum
- Şu an hacker olmak için harika bir dönem
Benim de ara katmanların kullanımı konusunda benzer bir sezgim vardı.
Bu YouTube videosunu izledikten sonra düşüncelerimi toparladım ve katmanlar döngüye alındıkça sıralarının sabit olmasının gerekmediği sonucuna vardım
Eğer döngü sırasında bazı katmanlar gereksizse atlanabiliyor ve yalnızca gerekenler tekrarlanabiliyorsa, bu sonuçta tek katmanlı bir MOE modeline dönüşebilir.
Ne kadar derin düşüneceğini ayarlayan bir akıl yürütme yoğunluğu düğmesi gibi bir kavram da mümkün olabilir
- İlginç bir fikir. Ama katman sırasını tamamen rastgeleleştirmek kombinatoryal patlama sorununa yol açabilir
  Yine de transformer bloklarının çağrılma sırasını rastgeleleştirip performansın nasıl değiştiğini denemek ilginç olurdu
Yazıyı okurken bilginin geometrik yapısı fikrine yakın hissettim.
Farklı alanlar arasında gezinen genelci düşünme biçiminin bu tür sinirsel yapıları yansıttığı hissi var.
Sayenizde günüm güzelleşti
- Teşekkürler
Yaklaşık 7 katman bloğunun çalışması, ama bunun üstü ya da altının çalışmaması ilginç
Bu, transformer içinde hâlâ anlamadığımız işlevsel birimlerin (“organların”) bulunduğuna işaret ediyor
Qwen dışında Llama veya Mistral gibi başka mimarilerde de aynı “7 katman sihri” görülüyor mu merak ediyorum
Bu fikir bende iki soru uyandırıyor
1. Model baştan itibaren böyle bir döngü yapısıyla mı eğitilmeli?
2. Sabit katman sayısı kullanmak gerçekten doğru mu?
  Eğer model iç katman değişikliklerine bu kadar toleranslıysa, her token için tüm katmanları çalıştırmak gerekmeyebilir
  Sorunun zorluğuna göre tekrar sayısını ayarlayan bir model yapılırsa, kolay problemleri hızlıca, zor olanları ise daha derin akıl yürüterek çözebilir
  Eğitim sırasında kendi güvenini (confidence) tahmin edip ek hesaplama gerekip gerekmediğine de karar verebilir

HuggingFace açık LLM liderlik tablosunda 1. sıraya nasıl çıktı – iki oyun GPU’suyla, ağırlıkları değiştirmeden

Açık LLM liderlik tablosu ve deneyin arka planı

İpucu 1 – Base64 konuşma deneyi

İpucu 2 – Goliath-120B modelinin sıra dışı yapısı

‘Beyin tarayıcısı’ kurmak

Proxy görev tasarımı

Matematik puanlama fonksiyonu ve kısmi doğru değerlendirmesi

RYS-XLarge modelinin yapısı

Liderlik tablosu performansı

Transformer’ın ‘işlevsel devreleri’nin keşfi

Heatmap analizi ve ‘LLM Neuroanatomy’

Hatalı kopyalamanın yan etkileri

Sonraki çalışmalar ve türev modeller

Yapısal ölçekleme ve anlamı

Gelecek planları

Sonuç

İlgili okumalar

1 yorum

Hacker News görüşleri