1 puan yazan GN⁺ 2025-05-06 | 1 yorum | WhatsApp'ta paylaş
  • MVDRAM, değiştirilmemiş DRAM kullanarak düşük bitli LLM çıkarımı için GeMV işlemlerini hızlandıran bir sistemdir
  • DRAM’ı bir GeMV motoru olarak kullanarak yüksek verim sunar
  • Mevcut PUD yaklaşımındaki girdi ön düzenleme ve çıktı bit dönüştürme maliyetlerini ortadan kaldırır
  • Deney sonuçları, düşük bitli LLM’lerde işlemci tabanlı uygulamalara kıyasla daha üstün performans gösterdiğini ortaya koyuyor
  • Yapay zeka donanımı için yeni olanaklar sunuyor

MVDRAM: Değiştirilmemiş DRAM ile Düşük Bitli LLM Hızlandırma

  • GeMV işlemleri, büyük dil modeli (LLM) çıkarımında önemli bir gecikme darboğazı olmaya devam ediyor
  • Processing-Using-DRAM (PUD), DRAM’ı bir GeMV motoru olarak yeniden kullanma potansiyeline sahip
  • Ancak PUD’yi LLM çıkarım hattına uygulamak önemli ek yükler doğuruyor

MVDRAM’ın yenilikçi yaklaşımı

  • MVDRAM, veri paylaşım örüntülerini ve matematiksel doğrusallığı kullanarak işlemci ile DRAM arasında koordinasyon sağlıyor
  • Mevcut PUD yaklaşımının maliyetlerini ortadan kaldırarak GeMV işlemlerini hızlandırıyor

Deney sonuçları

  • Dört DDR4 DRAM modülüyle yapılan deneylerde MVDRAM, düşük bitli (4 bit ve altı) LLM’lerde işlemci tabanlı uygulamalardan daha yüksek performans gösterdi
  • En fazla 7.29 kat hızlanma ve 30.5 kat enerji verimliliği sağladı

LLM çıkarımında genel iyileştirme

  • 2 bit ve 4 bit kuantize düşük bitli modellerde sırasıyla 2.18 kat ve 1.31 kat throughput artışı gösterdi
  • Enerji verimliliği de sırasıyla 3.04 kat ve 2.35 kat iyileşti

Yapay zeka donanımı için yeni olanaklar

  • MVDRAM, standart DRAM’ın bir LLM hızlandırıcısı olarak kullanılabileceğini gösteriyor
  • Yapay zeka donanımında yeni ufuklar açma potansiyeline sahip

1 yorum

 
GN⁺ 2025-05-06
Hacker News görüşleri
  • DRAM içinde hesaplamaya dair erken önerilerden biri hakkında bilgi var

    • Ticari bileşenler kullanılarak yapılan ilk gösterim mevcut
    • Uygulama için DRAM Bender adlı araç kullanılıyor
    • DRAM içinde işlemeye dair son gelişmeleri ele alan bir makale var
  • Birisi, Kaynak 1 ve 3'ün yazar listelerinin çok uzun olduğuna dikkat çekiyor

    • 2016 tarihli makale bekleniyordu ancak dahil edilmemiş
    • 2019 tarihli makale dahil edilmiş
    • DRAM'in spesifikasyon dışı davranışı, özellikle kopyalama işlevi, kötü şöhretli hatalarla bağlantılı
  • DRAM komutlarını üreticinin belirttiği zamanlama parametrelerini kasıtlı olarak ihlal ederek göndermek, büyük ölçekli paralel işlemeyi mümkün kılabilir

    • Bu, DRAM eğitimi için ikili bloblara ilişkin bir zorluk oluşturuyor
  • Bu fikir oldukça özgün ve yaratıcı

    • Ayrıntı seviyesinde çalışmak ödüllendirici olabilir
  • Donanım dünyasında hatalardan yararlanmak riskli olabilir

    • Yazılım dünyasında, bir platformdaki hataları kullanarak özellik etkinleştirmek iyi bir yaklaşım değildir
    • Hata düzeltilirse sistem beklenmedik şekilde çalışabilir
  • Matris işlemleri doğrudan DRAM üzerinde gerçekleştiriliyor

    • Bu çok ilginç ve şaşırtıcı bir fikir
  • Genel matris-vektör çarpımı (GeMV) hakkında bir yorum var

    • Matematiksel anlayışının yetersiz olduğunu söyleyenler de var
    • Quaternion'lar, matrislere göre hesaplama açısından daha az karmaşık oldukları için popülerlik kazandı
    • Quaternion kullanarak LLM kuran biri olup olmadığını merak edenler de var
  • Bir yorumda, 1997 tarihli özgün Intelligent RAM (IRAM) kaynağına atıf yapılmamasının bilimsel olmadığı belirtiliyor

  • Birisi, matris çarpımı ve diğer işlemlerin geleneksel CPU'lardan DRAM'e taşınıp taşınamayacağını merak ediyor

    • Bu işlem kaymasının Samsung gibi şirketlere avantaj sağlayıp sağlamayacağı soruluyor
    • NVIDIA gibi şirketler açısından ne olacağı da merak ediliyor
  • Bu, büyük LLM'ler için ucuz çıkarım cihazları üretmenin harika bir yolu olabilir