Qwen2-72B’de orta katmanlardan 7’sini kopyalayarak liderlik tablosunda 1’incilik: ağırlıklara tek bir dokunuş bile yok
(dnhkng.github.io)Geliştirici David Noel Ng, Qwen2-72B modelinde orta katmanlardaki 7 katmanlık bölümü yalnızca bir kez daha tekrardan geçirerek çok basit bir yöntemle, hiçbir ağırlık değişikliği ve fine-tuning yapmadan 2024 HuggingFace Open LLM liderlik tablosunda 1’inciliğe çıktı.
Ana noktalar
-
Qwen2-72B’de (toplam 80 katman) belirli bir orta bölüm (45~51. katmanlar, 7 katman) bir kez daha çalıştırılacak şekilde model değiştirildi
→ Parametre sayısı 72B → yaklaşık 78B’ye çıkıyor ama eklenen yeni ağırlık sayısı 0 -
Benchmark sonuçları
- MATH Lvl 5: +8.16%
- MuSR: +17.72%
- 6 ana benchmark’ın 5’inde performans artışı → ortalama skorla liderlik tablosunda 1’incilik
Neden işe yaradı?
- Transformer modeli içinde işlevlere göre ayrışmış devrelerin (circuit) bulunduğu hipotezi (LLM Neuroanatomy)
- İlk katmanlar: girdi kodlama
- Orta katmanlar: asıl akıl yürütme/düşünme kısmı (matematik, duygu anlama gibi belirli devreler bulunuyor)
- Son katmanlar: çıktı çözümleme
→ Ortadaki akıl yürütme devresini bir kez daha çalıştırmak bu işlevi güçlendiriyor
Deney yöntemi
2 adet RTX 4090 ile 3.241 farklı katman aralığı kombinasyonu tam taramayla incelendi → ısı haritası (heatmap) analizi
→ Yalnızca belirli bir aralık (45~52) tekrarlandığında performansın keskin biçimde yükseldiği bir örüntü bulundu
Ek içgörüler
- Tek bir katmanı tekrarlamak → performans düşüşü
- Birden fazla katmanı blok halinde tekrarlamak → belirli işlevlerin güçlenmesi
- Daha sonra bu fikirden yola çıkan modellerin (RYS-XLarge → calme-3.2 vb.) 2026 başlarında liderlik tablosunun üst sıralarına çıktığı da görüldü
Sonuç
LLM’ler yalnızca üst üste dizilmiş katmanlardan oluşmuyor; beyin gibi işlevsel olarak ayrışmış devrelere sahip.
Bu devreleri bulup tekrar çalıştırmak bile, ağırlıklara dokunmadan performansı ciddi ölçüde artırabiliyor.
1 yorum
> Görünüşe göre model ne kadar küçükse o kadar karmaşık oluyor. Kodlama, çıkarım ve kod çözme işlevleri daha karmaşık biçimde birbirine dolaşıyor ve tüm alana yayılıyor. Birden çok görev boyunca genellenen işlevsel örtüşme alanları hiç bulamadım, ancak bir 'yeteneği' güçlendirmenin başka bir yeteneği zayıflatabileceği açıkça ortadaydı. Ancak model büyüdükçe işlevsel yapı daha fazla ayrışıyor. Büyük modeller, genelleştirilmiş 'düşünme' devreleri geliştirebilecek daha fazla 'alana' sahip ve yöntemimin 72B modelde çok etkili olmasının nedeni de bu olabilir. Belirli bir eşik noktasının altındaki parametrelerde, 'çıkarım korteksi' beynin geri kalanından tamamen ayrışmıyor.
Bu gidişle küçük modellerle büyük modeller arasındaki performans farkı daha da uç noktalara açılabilir gibi görünüyor.