Qwen3.5 model kuantizasyonu: topluluk sürümlerinde performans neden düşüyor?

(x.com/Brooooook_lyn)

18 puan yazan ragingwind 11 일 전 | 4 yorum | WhatsApp'ta paylaş

Yapay zeka modellerini daha küçük ve hızlı hale getirmek için sıkıştıran bir teknik olan 'kuantizasyon (quantization)' alanında, topluluğun dağıttığı MLX formatındaki Qwen3.5 modellerinin araç çağırma hataları, anlamsız çıktılar ve halüsinasyon (hallucination) üretmesinin nedeni teknik olarak ortaya kondu. Bu, yapay zeka ince ayar araçları şirketi Unsloth'un 150'den fazla benchmark deneyiyle nedenleri ve çözümü sunduğu bir içerik.

Temel özet

Kuantizasyon, modelin sayısal verilerini daha düşük hassasiyette (bit sayısında) sıkıştırarak dosya boyutunu ve hesaplama miktarını azaltan bir tekniktir
Topluluktaki kuantizasyon araçlarının çoğu, tüm katmanlara aynı bit sayısını uygulayan 'uniform kuantizasyon' kullanır
Qwen3.5, genel self-attention katmanları ile GatedDeltaNet adlı lineer attention katmanlarının dönüşümlü olarak yer aldığı hibrit bir yapıya sahiptir
Sorunun merkezinde linear_attn.out_proj katmanı bulunuyor; bu katmanda 4 bit sıkıştırma sırasında bilgi kaybına duyarlılık, çıktı katmanına (lm_head) kıyasla yaklaşık 120 kat daha yüksektir
Uniform kuantizasyon, önemsiz bölümlerde hassasiyeti boşa harcarken asıl hassas katmanları bozuyan yapısal bir sorun taşır

Unsloth'un çözümü

Her katmanın gerçek duyarlılığına göre bit sayısını farklı dağıtan 'mixed-bit kuantizasyon' yaklaşımı uygulandı
Düşük duyarlılığa sahip MLP katmanları 3 bit, attention Q/K/V katmanları 5 bit ve AWQ (ağırlık düzeltme tekniği) ile, en hassas çıktı katmanı ise tam bf16 hassasiyetinde tutuluyor
Kalibrasyon (düzeltme) verisi olarak Wikipedia yerine diyalog, kodlama ve araç çağırma örnekleri kullanılarak gerçek kullanım ortamına uygun önem hesabı yapılabiliyor

Artıları ve eksileri

Artı: Araç çağırma, yapılandırılmış çıktı ve kod üretim kalitesi mevcut topluluk sürümlerine kıyasla belirgin biçimde iyileşiyor. Aynı GGUF sürümüyle eşdeğer performans MLX'te elde edildi
Eksi: Bazı hassas katmanların bf16 olarak korunması gerektiği için disk kullanımı saf düşük bitli modellere göre daha büyük oluyor

Fark yaratan nokta

Mevcut topluluk araçları yapıyı dikkate almadan toplu sıkıştırma yaparken, Unsloth 150'den fazla KLD (bilgi kaybı ölçüm metriği) deneyi ve 121 ayar karşılaştırmasıyla katman bazında en uygun bit sayılarını bilimsel olarak çıkardı
Kalibrasyon verisinin kalitesinin sıkıştırma kalitesini belirlediğini deneysel olarak göstermesi de dikkat çekici

Çıkarımlar

Yapay zeka modeli sıkıştırmanın yalnızca bit sayısını azaltma meselesi olmadığı, modelin iç yapısını anlamaya yönelik tekniğin zorunlu olduğu bir kez daha doğrulandı
Topluluk tarafından dağıtılan hafifletilmiş modelleri iş ortamında kullanırken, dağıtıcının kuantizasyon yöntemi ve kalibrasyon verisinin mutlaka kontrol edilmesi gerektiğine dair pratik bir ders sunuyor

4 yorum

iiiiiiiiiiiii 9 일 전

Aslında çok da önemli olmayan katmanlar, cesurca sıkıştırılsa bile büyük kayıp yaratmaz. Bazı katmanlarda 2 bit kuantizasyon uygulansa bile gözle görülür bir kayıp olmaz.
Ama topluluk modellerinde tüm katmanlar topluca kuantize edildiği için sorun burada ortaya çıkıyor.

jeeeyul 10 일 전

Bunun nedeni, modelin boyutlarının ve katmanlarının dengeli biçimde pişirilmemiş olması. Her zamanki gibi.

ryj0902 10 일 전

Vay canına......!

mammal 11 일 전

Unsloth kurucusu Daniel Han gerçekten bir dahi gibi görünüyor. Ne zaman yeni bir açık ağırlıklı model çıksa, model mimarisinden tokenization bug’larına, quantization hatalarına ve şablon hatalarına kadar analiz edip paylaşıyor; gerçekten hayranlık uyandırıcı.

Qwen3.5 model kuantizasyonu: topluluk sürümlerinde performans neden düşüyor?

İlgili okumalar

4 yorum