2 puan yazan GN⁺ 2025-04-26 | 1 yorum | WhatsApp'ta paylaş
  • DFloat11, büyük dil modellerinin (LLM) boyutunu %30 azaltırken özgün modelle bit düzeyinde aynı çıktıyı koruyan kayıpsız bir sıkıştırma çerçevesidir
  • BFloat16 ağırlık gösteriminin düşük entropisinden yararlanarak mevcut depolama biçimlerinin verimsizliğini iyileştirir
  • GPU üzerinde verimli çıkarım için hızlı çevrim içi açmayı destekleyen özel GPU çekirdekleri geliştirilmiştir
  • Llama-3.1, Qwen-2.5, Gemma-3 gibi güncel modeller üzerinde yapılan deneyler, %30 model boyutu azalmasını ve çıktının birebir korunmasını doğrulamıştır
  • Sabit GPU bellek bütçesi ile sıkıştırılmamış modellere kıyasla 5.3-13.17 kat daha uzun bağlam uzunluğu sağlar

%70 Boyut, %100 Doğruluk: Verimli GPU Çıkarımı için Kayıpsız LLM Sıkıştırması

  • Büyük dil modellerinin (LLM) boyutu hızla arttığı için, kaynakları kısıtlı donanımlarda verimli dağıtım büyük bir zorluk haline geliyor
  • Dynamic-Length Float (DFloat11), LLM boyutunu %30 azaltırken bit düzeyinde aynı çıktıyı koruyan kayıpsız bir sıkıştırma çerçevesidir
  • BFloat16 ağırlık gösteriminin düşük entropisinden yararlanarak mevcut depolama biçimlerinin verimsizliğini iyileştirir
  • Entropi kodlaması uygulayarak, frekansa göre ağırlıklara dinamik uzunluklu kodlama atar ve bilgi açısından en iyi sıkıştırmayı elde eder
  • Verimli çıkarım için hızlı çevrim içi açmayı destekleyen özel GPU çekirdekleri geliştirilmiştir

DFloat11'in Tasarımı

  • Bellek yoğun arama tablolarını (LUT), GPU SRAM'e sığan sıkıştırılmış LUT'lara ayırır
  • İş parçacığı okuma/yazma konumlarını ayarlamak için hafif yardımcı değişkenler kullanan iki aşamalı bir çekirdek geliştirilmiştir
  • Gecikmeyi en aza indirmek için transformer blok düzeyinde açma kullanılır

Deney Sonuçları

  • Llama-3.1, Qwen-2.5, Gemma-3 gibi güncel modellerde DFloat11'in %30 model boyutu azalmasını ve çıktının doğru biçimde korunmasını sağladığı doğrulanmıştır
  • Sıkıştırılmamış modelin bir kısmını CPU'ya offload eden alternatiflerle karşılaştırıldığında 1.9-38.8 kat daha yüksek throughput elde edilmiştir
  • Sabit GPU bellek bütçesiyle, sıkıştırılmamış modellere kıyasla 5.3-13.17 kat daha uzun bağlam uzunluğu mümkün olur

DFloat11'in Avantajları

  • Llama-3.1-405B, 810GB modeli için 8x80GB GPU bulunan tek bir düğümde kayıpsız çıkarımı mümkün kılar
  • Kod ve model genel URL üzerinden sunulmaktadır

1 yorum

 
GN⁺ 2025-04-26
Hacker News görüşü
  • bfloat16'nın yüksek dinamik aralığı çoğunlukla kullanılmıyor

    • İnsanlar 0.01 gibi hiperparametreleri tercih ediyor
    • Ağın tüm öğelerini 10^6 ile çarpmak bile büyük bir fark yaratmıyor
    • bfloat16 değerlerinin tipik entropisi 10-12 bittir
    • İşaret ve mantissa bitleri sıkıştırılamayan gürültüdür
    • Kayıpsız sıkıştırma teknikleri Martin Burtscher'in laboratuvarında, LLNL'nin fpzip'inde ve Facebook'un dietgpu'sunda kullanılıyor
    • rANS, SIMD komut setlerinde Huffman kodlamasından daha verimlidir
  • 405B parametreli bir modeli tek bir düğümde çalıştırma olasılığı

    • Araştırma laboratuvarları ve startup'lar için büyük fırsatlar sunuyor
  • ML/transformer modellerindeki hızlı ilerleme için minnettarım

    • llama.cpp'nin cublas'ı iyi kullanıp kullanmadığını merak ediyorum
  • Ağırlık formatı savaşları bittiğinde donanım bunu destekleyebilir

    • En uygun ağırlık formatına göre uyarlanmış matris çarpımı donanımına ihtiyaç var
  • Gerçek ajan kullanım senaryolarında kalite, maliyet ve performans dengesini kurmak zor

    • dfloat11 maliyetleri düşürmeye yardımcı olabilir
  • xmad.ai'de çalışıyorum

  • Teknolojik ilerleme hızı çok yüksek

    • Verimlilik iyileştirmelerini ilgi çekici buluyorum
  • DFloat11, sıkıştırılmamış modelleri CPU'ya offload etmeye kıyasla 1.9-38.8 kat daha yüksek throughput sağlıyor

    • Sabit GPU bellek bütçesiyle daha uzun context length sunuyor
  • LLM'lerin bellek bant genişliği tarafından mı sınırlı olduğunu merak ediyorum

  • LLM kullanarak görüntüleri daha fazla sıkıştırmanın bir yolunu buldum

    • İlgili whitepaper'ı yakında yayımlayacağım
  • ZipNN'den farklı olup olmadığını merak ediyorum

    • Temel aldığı şey mi, farklı mı, daha mı iyi, anlaması zor
  • İkili yerine üçlü kullanılırsa daha yüksek sıkıştırma oranı elde edilebileceğini düşünüyorum