Qwen2-72B’de orta katmanlardan 7’sini kopyalayarak liderlik tablosunda 1’incilik: ağırlıklara tek bir dokunuş bile yok
(dnhkng.github.io)Geliştirici David Noel Ng, Qwen2-72B modelinde orta katmanlardaki 7 katmanlık bölümü yalnızca bir kez daha tekrardan geçirerek çok basit bir yöntemle, hiçbir ağırlık değişikliği ve fine-tuning yapmadan 2024 HuggingFace Open LLM liderlik tablosunda 1’inciliğe çıktı.
Ana noktalar
-
Qwen2-72B’de (toplam 80 katman) belirli bir orta bölüm (45~51. katmanlar, 7 katman) bir kez daha çalıştırılacak şekilde model değiştirildi
→ Parametre sayısı 72B → yaklaşık 78B’ye çıkıyor ama eklenen yeni ağırlık sayısı 0 -
Benchmark sonuçları
- MATH Lvl 5: +8.16%
- MuSR: +17.72%
- 6 ana benchmark’ın 5’inde performans artışı → ortalama skorla liderlik tablosunda 1’incilik
Neden işe yaradı?
- Transformer modeli içinde işlevlere göre ayrışmış devrelerin (circuit) bulunduğu hipotezi (LLM Neuroanatomy)
- İlk katmanlar: girdi kodlama
- Orta katmanlar: asıl akıl yürütme/düşünme kısmı (matematik, duygu anlama gibi belirli devreler bulunuyor)
- Son katmanlar: çıktı çözümleme
→ Ortadaki akıl yürütme devresini bir kez daha çalıştırmak bu işlevi güçlendiriyor
Deney yöntemi
2 adet RTX 4090 ile 3.241 farklı katman aralığı kombinasyonu tam taramayla incelendi → ısı haritası (heatmap) analizi
→ Yalnızca belirli bir aralık (45~52) tekrarlandığında performansın keskin biçimde yükseldiği bir örüntü bulundu
Ek içgörüler
- Tek bir katmanı tekrarlamak → performans düşüşü
- Birden fazla katmanı blok halinde tekrarlamak → belirli işlevlerin güçlenmesi
- Daha sonra bu fikirden yola çıkan modellerin (RYS-XLarge → calme-3.2 vb.) 2026 başlarında liderlik tablosunun üst sıralarına çıktığı da görüldü
Sonuç
LLM’ler yalnızca üst üste dizilmiş katmanlardan oluşmuyor; beyin gibi işlevsel olarak ayrışmış devrelere sahip.
Bu devreleri bulup tekrar çalıştırmak bile, ağırlıklara dokunmadan performansı ciddi ölçüde artırabiliyor.
1 yorum
Bu gidişle küçük modellerle büyük modeller arasındaki performans farkı daha da uç noktalara açılabilir gibi görünüyor.