- LLaMA çıkarım kodunun saf C++ ile yeniden yazılmış hali olan LLaMA.cpp sayesinde Pixel 5, M2 MacBook Pro, Raspberry Pi gibi çeşitli donanımlarda çalıştırmak mümkün
- Büyük modeller normalde pahalı GPU'lar gerektirir; peki bu nasıl mümkün olabiliyor?
- GPU'lar, yüksek bellek bant genişliği ve hesaplama gücü sayesinde derin öğrenme için avantajlıdır, ancak bellek bant genişliği çoğu zaman çıkarımın darboğazı olur
- Çünkü gerçek hesaplama için verilerin HBM belleğinden (RAM) çip üstü belleğe taşınması gerekir
- LLaMA ağırlıkları için RAM kullanımında Quantization (nicemleme) kritik önemdedir
- Hassasiyeti düşürmek, modeli bellekte tutmak için gereken bellek miktarını dramatik biçimde azaltabilir
- Nicemleme, modeli depolamak için gereken bellek miktarını azaltarak standart veri merkezi GPU'larının ve üst düzey tüketici GPU'larının belleğine sığmasını sağlar
- Bellek bant genişliği, transformer örneklemesiyle ilgili neredeyse tüm işlemlerde sınırlayıcı etkendir
- Nicemleme gibi yöntemlerle bellek gereksinimleri azaltıldığında servis etmek çok daha kolay hale gelir
- Bu, distillation ya da "daha küçük modelleri daha uzun süre eğitme" yaklaşımının bir başka nedenidir
3 yorum
Yerel makinede LlamaCpp ile llama2’yi yükleyip embedding testi yaptım.
https://breezymind.com/llamacpp-embedding
HN'deki ilk yorum faydalı görünüyor
Hacker News görüşleri