- GPT2-small veya LLaMA-7B gibi hizalanmış ve iyi eğitilmiş küçük dil modelleri sıkıştırma için kullanılıyor
- Prompt içindeki önemsiz token’ları tespit ederek black-box LLM üzerinde sıkıştırılmış prompt ile çıkarım yapılmasını sağlıyor
- LLM’in çıkarım hızını artırmak ve temel bilgilere yönelik farkındalığını iyileştirmek için prompt ve KV-Cache sıkıştırılıyor
- Performans kaybını en aza indirirken 20 kata kadar sıkıştırma sağlanıyor
- Prompt ve üretilen bağlamı azaltarak maliyeti düşürüyor
- Prompt içindeki önemli bilgi yoğunluğunu artırarak daha uzun bağlam desteği sunabiliyor
Henüz yorum yok.