1 puan yazan GN⁺ 2024-12-25 | 1 yorum | WhatsApp'ta paylaş
  • MLC-LLM'nin önemi

    • MLC-LLM, ROCm kullanarak AMD GPU'larda LLM'leri derlemeye ve dağıtmaya olanak sağlar.
    • AMD Radeon™ RX 7900 XTX, NVIDIA® GeForce RTX™ 4090 performansının %80'i ile RTX™ 3090 Ti performansının %94'ünü sağlar.
    • Vulkan desteği sayesinde SteamDeck gibi AMD APU cihazlarında da LLM dağıtımı mümkün olur.
  • Arka plan

    • Açık kaynak LLM'lerin yaygınlaşmasının ardından çok sayıda LLM çıkarım çözümü ortaya çıktı.
    • Performansı yüksek çoğu çıkarım çözümü CUDA tabanlıdır ve NVIDIA GPU'lara göre optimize edilmiştir.
    • Artan hesaplama kullanılabilirliği talebi nedeniyle daha geniş bir donanım hızlandırıcı yelpazesini desteklemek daha faydalı hale geliyor.
    • AMD, potansiyel bir adaydır.
  • Donanım ve yazılım değerlendirmesi

    • AMD RX 7900 XTX, NVIDIA RTX 4090 ve RTX 3090 Ti ile karşılaştırılabilir özelliklere sahiptir.
    • Her iki model de 24 GB belleğe sahip olduğu için aynı büyüklükteki modelleri barındırabilir.
    • FP16 performansı, 4090'da 7900 XTX'in iki katı, 3090 Ti'de ise 1.3 kat daha yüksektir.
    • RX 7900 XTX, RTX 4090'dan %40 daha ucuzdur.
    • AMD'nin geçmişte geride kalmasının nedeni, donanım değil yazılım desteğindeki eksiklikti.
  • ROCm için makine öğrenimi derleme

    • MLC (Makine Öğrenimi Derleme), makine öğrenimi işlerini otomatik olarak optimize eden yeni bir tekniktir.
    • MLC-LLM, Apache TVM Unity tabanlıdır ve farklı arka uçlarda yüksek performanslı genel dağıtım sağlar.
    • Python tabanlı iş akışıyla dil modelleri derlenir, GPU çekirdeklerinin düzeni ve zamanlaması optimize edilir.
  • AMD GPU ve APU için MLC

    • AMD GPU için destek sağlayan yöntemler: ROCm, OpenCL, Vulkan, WebGPU
    • ROCm yığını, AMD'nin son dönemde benimsediği yaklaşım olup CUDA yığınına benzer birçok bileşen içerir.
    • Vulkan, en yeni grafik standardı olarak GPU cihazları arasında en geniş destek yelpazesini sunar.
    • MLC, otomatik kod üretimini destekleyerek her bir GPU çekirdeğini yeniden yapılandırmaya gerek kalmadan farklı yöntemleri destekler.
  • MLC Python paketiyle yapılan benchmarklar

    • Llama 2 7B ve 13B modelleri 4 bit kuantizasyonla benchmarklandı.
    • Tekli batch çıkarım performansı, ROCm 5.6'nın piyasaya sürülmesiyle NVIDIA 4090'ın %80 hızına ulaştı.
  • SteamDeck'te Vulkan ile çalıştırma

    • AMD APU'lu SteamDeck'te Vulkan kullanılarak çalıştırma yapılabilir.
    • ROCm'de GPU VRAM'i BIOS'ta 4 GB ile sınırlıdır, ancak Mesa Vulkan sürücüsü entegre belleği kullanarak 16 GB'ye kadar genişletebilir.
  • Tartışmalar ve gelecekteki çalışmalar

    • Donanım kullanılabilirliği, üretken yapay zeka döneminde öne çıkan önemli bir konu haline geldi.
    • ML derleme, donanım arka uçları genelinde yüksek performanslı genel dağıtımı mümkün kılar.
    • Tüketici GPU'su üzerine yapılan çalışmalar bulut GPU'larına da genellenebilir.
    • Topluluğun, MLC'nin genel dağıtım akışını temel alarak çözümler geliştirmesi teşvik edildi.
  • Nihai sonuç

    • Makine öğrenimi sistem mühendisliği sürekli bir sorundur.
    • NVIDIA yine de inovasyon yoluyla bu alanda liderliğini sürdürmektedir ve yeni donanım ile yazılım gelişmelerle bunu değiştirebileceği öngörülmektedir.
    • Python tabanlı ML derleme geliştirme akışı sayesinde ROCm optimizasyon desteği yalnızca birkaç saat içinde sağlanabildi.
  • Bağlantılar ve teşekkürler

    • MLC LLM dağıtımıyla ilgili ayrıntılı kılavuz için proje sayfasına bakın.
    • MLC LLM kaynak kodu resmi GitHub deposunda bulunabilir.
    • Apache TVM topluluğuna ve TVM Unity derleyici geliştiricilerine teşekkür ederiz.

1 yorum

 
GN⁺ 2024-12-25
Hacker News yorumları
  • AMD'nin tüketici GPU'su (RX7900XTX), veri merkezi için tasarlanan GPU'lar (MI300X) ile farklı performans gösteriyor; bunun nedeni RDNA ile CDNA mimarileri arasındaki fark. AMD'nin 2026 civarında UDNA mimarisini piyasaya sürmeyi planladığı belirtiliyor. CentML, AMD CDNA ve HIP desteğini Hidet derin öğrenme derleyicisine entegre etmeye çalışıyor.

  • Birkaç start-up, AMD GPU'larını kullanarak Nvidia'nın tekelini kırmaya çalışıyor. Felafax, Lamini, tensorwave ve SlashML buna örnek. Bazıları CUDA engelinin yaklaşık 18 ay sürdüğünü iddia ediyor.

  • TVM ve MLC üzerinde çalışan ekip, OctoAI'de NVIDIA'ya katıldı.

  • Phi-4 Q6'yı 7950XTX ve 7900XT'de test eden kişi, yalnızca CPU ile bile çok hızlı çalıştığını ve AMD'nin ev içi kullanım için uygun olma potansiyelini gördüğünü belirtti.

  • ML topluluğunun neden CUDA dışına çıkmadığını anlayamıyorum. CUDA kapalı ve platformlar arası değil. Yapay zeka/LLM gelişimiyle platformlar arası geçişin çok daha hızlı olması beklenirdi.

  • İkinci el 3090'lar 600-900$ arasında; 7900'den daha hızlı ve CUDA sayesinde daha çok yönlü.

  • Verimliliği artırmak önemli; fiyat/performansın yanı sıra güç ve hesaplama verimliliği de gerekiyor. llama.cpp ile standart bir CPU'da çıkarım çalıştırmayı deniyorum.

  • Modular, AMD GPU'larında %93 GPU kullanım oranına ulaştıklarını iddia ederek resmi erken erişim sürümünü gelecek yılın başında duyurmayı planlıyor. NVIDIA GPU performansı hakkındaki olumlu geri bildirimleri görünce iyimserliklerini artıyor.