Qwen2-72B’de orta katmanlardan 7’sini kopyalayarak liderlik tablosunda 1’incilik: ağırlıklara tek bir dokunuş bile yok

(dnhkng.github.io)

11 puan yazan davespark 2026-03-11 | 1 yorum | WhatsApp'ta paylaş

Geliştirici David Noel Ng, Qwen2-72B modelinde orta katmanlardaki 7 katmanlık bölümü yalnızca bir kez daha tekrardan geçirerek çok basit bir yöntemle, hiçbir ağırlık değişikliği ve fine-tuning yapmadan 2024 HuggingFace Open LLM liderlik tablosunda 1’inciliğe çıktı.

Ana noktalar

Qwen2-72B’de (toplam 80 katman) belirli bir orta bölüm (45~51. katmanlar, 7 katman) bir kez daha çalıştırılacak şekilde model değiştirildi
→ Parametre sayısı 72B → yaklaşık 78B’ye çıkıyor ama eklenen yeni ağırlık sayısı 0
Benchmark sonuçları
- MATH Lvl 5: +8.16%
- MuSR: +17.72%
- 6 ana benchmark’ın 5’inde performans artışı → ortalama skorla liderlik tablosunda 1’incilik

Neden işe yaradı?

Transformer modeli içinde işlevlere göre ayrışmış devrelerin (circuit) bulunduğu hipotezi (LLM Neuroanatomy)
İlk katmanlar: girdi kodlama
Orta katmanlar: asıl akıl yürütme/düşünme kısmı (matematik, duygu anlama gibi belirli devreler bulunuyor)
Son katmanlar: çıktı çözümleme
→ Ortadaki akıl yürütme devresini bir kez daha çalıştırmak bu işlevi güçlendiriyor

Deney yöntemi
2 adet RTX 4090 ile 3.241 farklı katman aralığı kombinasyonu tam taramayla incelendi → ısı haritası (heatmap) analizi
→ Yalnızca belirli bir aralık (45~52) tekrarlandığında performansın keskin biçimde yükseldiği bir örüntü bulundu

Ek içgörüler

Tek bir katmanı tekrarlamak → performans düşüşü
Birden fazla katmanı blok halinde tekrarlamak → belirli işlevlerin güçlenmesi
Daha sonra bu fikirden yola çıkan modellerin (RYS-XLarge → calme-3.2 vb.) 2026 başlarında liderlik tablosunun üst sıralarına çıktığı da görüldü

Sonuç
LLM’ler yalnızca üst üste dizilmiş katmanlardan oluşmuyor; beyin gibi işlevsel olarak ayrışmış devrelere sahip.
Bu devreleri bulup tekrar çalıştırmak bile, ağırlıklara dokunmadan performansı ciddi ölçüde artırabiliyor.

https://aisparkup.com/posts/9997

1 yorum

sygys10293 2026-03-13

> Görünüşe göre model ne kadar küçükse o kadar karmaşık oluyor. Kodlama, çıkarım ve kod çözme işlevleri daha karmaşık biçimde birbirine dolaşıyor ve tüm alana yayılıyor. Birden çok görev boyunca genellenen işlevsel örtüşme alanları hiç bulamadım, ancak bir 'yeteneği' güçlendirmenin başka bir yeteneği zayıflatabileceği açıkça ortadaydı. Ancak model büyüdükçe işlevsel yapı daha fazla ayrışıyor. Büyük modeller, genelleştirilmiş 'düşünme' devreleri geliştirebilecek daha fazla 'alana' sahip ve yöntemimin 72B modelde çok etkili olmasının nedeni de bu olabilir. Belirli bir eşik noktasının altındaki parametrelerde, 'çıkarım korteksi' beynin geri kalanından tamamen ayrışmıyor.

Bu gidişle küçük modellerle büyük modeller arasındaki performans farkı daha da uç noktalara açılabilir gibi görünüyor.

Qwen2-72B’de orta katmanlardan 7’sini kopyalayarak liderlik tablosunda 1’incilik: ağırlıklara tek bir dokunuş bile yok

İlgili okumalar

1 yorum