Qwen3.5 model kuantizasyonu: topluluk sürümlerinde performans neden düşüyor?
(x.com/Brooooook_lyn)Yapay zeka modellerini daha küçük ve hızlı hale getirmek için sıkıştıran bir teknik olan 'kuantizasyon (quantization)' alanında, topluluğun dağıttığı MLX formatındaki Qwen3.5 modellerinin araç çağırma hataları, anlamsız çıktılar ve halüsinasyon (hallucination) üretmesinin nedeni teknik olarak ortaya kondu. Bu, yapay zeka ince ayar araçları şirketi Unsloth'un 150'den fazla benchmark deneyiyle nedenleri ve çözümü sunduğu bir içerik.
Temel özet
- Kuantizasyon, modelin sayısal verilerini daha düşük hassasiyette (bit sayısında) sıkıştırarak dosya boyutunu ve hesaplama miktarını azaltan bir tekniktir
- Topluluktaki kuantizasyon araçlarının çoğu, tüm katmanlara aynı bit sayısını uygulayan 'uniform kuantizasyon' kullanır
- Qwen3.5, genel self-attention katmanları ile GatedDeltaNet adlı lineer attention katmanlarının dönüşümlü olarak yer aldığı hibrit bir yapıya sahiptir
- Sorunun merkezinde
linear_attn.out_projkatmanı bulunuyor; bu katmanda 4 bit sıkıştırma sırasında bilgi kaybına duyarlılık, çıktı katmanına (lm_head) kıyasla yaklaşık 120 kat daha yüksektir - Uniform kuantizasyon, önemsiz bölümlerde hassasiyeti boşa harcarken asıl hassas katmanları bozuyan yapısal bir sorun taşır
Unsloth'un çözümü
- Her katmanın gerçek duyarlılığına göre bit sayısını farklı dağıtan 'mixed-bit kuantizasyon' yaklaşımı uygulandı
- Düşük duyarlılığa sahip MLP katmanları 3 bit, attention Q/K/V katmanları 5 bit ve AWQ (ağırlık düzeltme tekniği) ile, en hassas çıktı katmanı ise tam bf16 hassasiyetinde tutuluyor
- Kalibrasyon (düzeltme) verisi olarak Wikipedia yerine diyalog, kodlama ve araç çağırma örnekleri kullanılarak gerçek kullanım ortamına uygun önem hesabı yapılabiliyor
Artıları ve eksileri
- Artı: Araç çağırma, yapılandırılmış çıktı ve kod üretim kalitesi mevcut topluluk sürümlerine kıyasla belirgin biçimde iyileşiyor. Aynı GGUF sürümüyle eşdeğer performans MLX'te elde edildi
- Eksi: Bazı hassas katmanların bf16 olarak korunması gerektiği için disk kullanımı saf düşük bitli modellere göre daha büyük oluyor
Fark yaratan nokta
- Mevcut topluluk araçları yapıyı dikkate almadan toplu sıkıştırma yaparken, Unsloth 150'den fazla KLD (bilgi kaybı ölçüm metriği) deneyi ve 121 ayar karşılaştırmasıyla katman bazında en uygun bit sayılarını bilimsel olarak çıkardı
- Kalibrasyon verisinin kalitesinin sıkıştırma kalitesini belirlediğini deneysel olarak göstermesi de dikkat çekici
Çıkarımlar
- Yapay zeka modeli sıkıştırmanın yalnızca bit sayısını azaltma meselesi olmadığı, modelin iç yapısını anlamaya yönelik tekniğin zorunlu olduğu bir kez daha doğrulandı
- Topluluk tarafından dağıtılan hafifletilmiş modelleri iş ortamında kullanırken, dağıtıcının kuantizasyon yöntemi ve kalibrasyon verisinin mutlaka kontrol edilmesi gerektiğine dair pratik bir ders sunuyor
4 yorum
Aslında çok da önemli olmayan katmanlar, cesurca sıkıştırılsa bile büyük kayıp yaratmaz. Bazı katmanlarda 2 bit kuantizasyon uygulansa bile gözle görülür bir kayıp olmaz.
Ama topluluk modellerinde tüm katmanlar topluca kuantize edildiği için sorun burada ortaya çıkıyor.
Bunun nedeni, modelin boyutlarının ve katmanlarının dengeli biçimde pişirilmemiş olması. Her zamanki gibi.
Vay canına......!
Unsloth kurucusu Daniel Han gerçekten bir dahi gibi görünüyor. Ne zaman yeni bir açık ağırlıklı model çıksa, model mimarisinden tokenization bug’larına, quantization hatalarına ve şablon hatalarına kadar analiz edip paylaşıyor; gerçekten hayranlık uyandırıcı.