- DFloat11, büyük dil modellerinin (LLM) boyutunu %30 azaltırken özgün modelle bit düzeyinde aynı çıktıyı koruyan kayıpsız bir sıkıştırma çerçevesidir
- BFloat16 ağırlık gösteriminin düşük entropisinden yararlanarak mevcut depolama biçimlerinin verimsizliğini iyileştirir
- GPU üzerinde verimli çıkarım için hızlı çevrim içi açmayı destekleyen özel GPU çekirdekleri geliştirilmiştir
- Llama-3.1, Qwen-2.5, Gemma-3 gibi güncel modeller üzerinde yapılan deneyler, %30 model boyutu azalmasını ve çıktının birebir korunmasını doğrulamıştır
- Sabit GPU bellek bütçesi ile sıkıştırılmamış modellere kıyasla 5.3-13.17 kat daha uzun bağlam uzunluğu sağlar
%70 Boyut, %100 Doğruluk: Verimli GPU Çıkarımı için Kayıpsız LLM Sıkıştırması
- Büyük dil modellerinin (LLM) boyutu hızla arttığı için, kaynakları kısıtlı donanımlarda verimli dağıtım büyük bir zorluk haline geliyor
- Dynamic-Length Float (DFloat11), LLM boyutunu %30 azaltırken bit düzeyinde aynı çıktıyı koruyan kayıpsız bir sıkıştırma çerçevesidir
- BFloat16 ağırlık gösteriminin düşük entropisinden yararlanarak mevcut depolama biçimlerinin verimsizliğini iyileştirir
- Entropi kodlaması uygulayarak, frekansa göre ağırlıklara dinamik uzunluklu kodlama atar ve bilgi açısından en iyi sıkıştırmayı elde eder
- Verimli çıkarım için hızlı çevrim içi açmayı destekleyen özel GPU çekirdekleri geliştirilmiştir
DFloat11'in Tasarımı
- Bellek yoğun arama tablolarını (LUT), GPU SRAM'e sığan sıkıştırılmış LUT'lara ayırır
- İş parçacığı okuma/yazma konumlarını ayarlamak için hafif yardımcı değişkenler kullanan iki aşamalı bir çekirdek geliştirilmiştir
- Gecikmeyi en aza indirmek için transformer blok düzeyinde açma kullanılır
Deney Sonuçları
- Llama-3.1, Qwen-2.5, Gemma-3 gibi güncel modellerde DFloat11'in %30 model boyutu azalmasını ve çıktının doğru biçimde korunmasını sağladığı doğrulanmıştır
- Sıkıştırılmamış modelin bir kısmını CPU'ya offload eden alternatiflerle karşılaştırıldığında 1.9-38.8 kat daha yüksek throughput elde edilmiştir
- Sabit GPU bellek bütçesiyle, sıkıştırılmamış modellere kıyasla 5.3-13.17 kat daha uzun bağlam uzunluğu mümkün olur
DFloat11'in Avantajları
- Llama-3.1-405B, 810GB modeli için 8x80GB GPU bulunan tek bir düğümde kayıpsız çıkarımı mümkün kılar
- Kod ve model genel URL üzerinden sunulmaktadır
1 yorum
Hacker News görüşü
bfloat16'nın yüksek dinamik aralığı çoğunlukla kullanılmıyor
405B parametreli bir modeli tek bir düğümde çalıştırma olasılığı
ML/transformer modellerindeki hızlı ilerleme için minnettarım
Ağırlık formatı savaşları bittiğinde donanım bunu destekleyebilir
Gerçek ajan kullanım senaryolarında kalite, maliyet ve performans dengesini kurmak zor
xmad.ai'de çalışıyorum
Teknolojik ilerleme hızı çok yüksek
DFloat11, sıkıştırılmamış modelleri CPU'ya offload etmeye kıyasla 1.9-38.8 kat daha yüksek throughput sağlıyor
LLM'lerin bellek bant genişliği tarafından mı sınırlı olduğunu merak ediyorum
LLM kullanarak görüntüleri daha fazla sıkıştırmanın bir yolunu buldum
ZipNN'den farklı olup olmadığını merak ediyorum
İkili yerine üçlü kullanılırsa daha yüksek sıkıştırma oranı elde edilebileceğini düşünüyorum