- MVDRAM, değiştirilmemiş DRAM kullanarak düşük bitli LLM çıkarımı için GeMV işlemlerini hızlandıran bir sistemdir
- DRAM’ı bir GeMV motoru olarak kullanarak yüksek verim sunar
- Mevcut PUD yaklaşımındaki girdi ön düzenleme ve çıktı bit dönüştürme maliyetlerini ortadan kaldırır
- Deney sonuçları, düşük bitli LLM’lerde işlemci tabanlı uygulamalara kıyasla daha üstün performans gösterdiğini ortaya koyuyor
- Yapay zeka donanımı için yeni olanaklar sunuyor
MVDRAM: Değiştirilmemiş DRAM ile Düşük Bitli LLM Hızlandırma
- GeMV işlemleri, büyük dil modeli (LLM) çıkarımında önemli bir gecikme darboğazı olmaya devam ediyor
- Processing-Using-DRAM (PUD), DRAM’ı bir GeMV motoru olarak yeniden kullanma potansiyeline sahip
- Ancak PUD’yi LLM çıkarım hattına uygulamak önemli ek yükler doğuruyor
MVDRAM’ın yenilikçi yaklaşımı
- MVDRAM, veri paylaşım örüntülerini ve matematiksel doğrusallığı kullanarak işlemci ile DRAM arasında koordinasyon sağlıyor
- Mevcut PUD yaklaşımının maliyetlerini ortadan kaldırarak GeMV işlemlerini hızlandırıyor
Deney sonuçları
- Dört DDR4 DRAM modülüyle yapılan deneylerde MVDRAM, düşük bitli (4 bit ve altı) LLM’lerde işlemci tabanlı uygulamalardan daha yüksek performans gösterdi
- En fazla 7.29 kat hızlanma ve 30.5 kat enerji verimliliği sağladı
LLM çıkarımında genel iyileştirme
- 2 bit ve 4 bit kuantize düşük bitli modellerde sırasıyla 2.18 kat ve 1.31 kat throughput artışı gösterdi
- Enerji verimliliği de sırasıyla 3.04 kat ve 2.35 kat iyileşti
Yapay zeka donanımı için yeni olanaklar
- MVDRAM, standart DRAM’ın bir LLM hızlandırıcısı olarak kullanılabileceğini gösteriyor
- Yapay zeka donanımında yeni ufuklar açma potansiyeline sahip
1 yorum
Hacker News görüşleri
DRAM içinde hesaplamaya dair erken önerilerden biri hakkında bilgi var
Birisi, Kaynak 1 ve 3'ün yazar listelerinin çok uzun olduğuna dikkat çekiyor
DRAM komutlarını üreticinin belirttiği zamanlama parametrelerini kasıtlı olarak ihlal ederek göndermek, büyük ölçekli paralel işlemeyi mümkün kılabilir
Bu fikir oldukça özgün ve yaratıcı
Donanım dünyasında hatalardan yararlanmak riskli olabilir
Matris işlemleri doğrudan DRAM üzerinde gerçekleştiriliyor
Genel matris-vektör çarpımı (GeMV) hakkında bir yorum var
Bir yorumda, 1997 tarihli özgün Intelligent RAM (IRAM) kaynağına atıf yapılmamasının bilimsel olmadığı belirtiliyor
Birisi, matris çarpımı ve diğer işlemlerin geleneksel CPU'lardan DRAM'e taşınıp taşınamayacağını merak ediyor
Bu, büyük LLM'ler için ucuz çıkarım cihazları üretmenin harika bir yolu olabilir