-
MLC-LLM'nin önemi
- MLC-LLM, ROCm kullanarak AMD GPU'larda LLM'leri derlemeye ve dağıtmaya olanak sağlar.
- AMD Radeon™ RX 7900 XTX, NVIDIA® GeForce RTX™ 4090 performansının %80'i ile RTX™ 3090 Ti performansının %94'ünü sağlar.
- Vulkan desteği sayesinde SteamDeck gibi AMD APU cihazlarında da LLM dağıtımı mümkün olur.
-
Arka plan
- Açık kaynak LLM'lerin yaygınlaşmasının ardından çok sayıda LLM çıkarım çözümü ortaya çıktı.
- Performansı yüksek çoğu çıkarım çözümü CUDA tabanlıdır ve NVIDIA GPU'lara göre optimize edilmiştir.
- Artan hesaplama kullanılabilirliği talebi nedeniyle daha geniş bir donanım hızlandırıcı yelpazesini desteklemek daha faydalı hale geliyor.
- AMD, potansiyel bir adaydır.
-
Donanım ve yazılım değerlendirmesi
- AMD RX 7900 XTX, NVIDIA RTX 4090 ve RTX 3090 Ti ile karşılaştırılabilir özelliklere sahiptir.
- Her iki model de 24 GB belleğe sahip olduğu için aynı büyüklükteki modelleri barındırabilir.
- FP16 performansı, 4090'da 7900 XTX'in iki katı, 3090 Ti'de ise 1.3 kat daha yüksektir.
- RX 7900 XTX, RTX 4090'dan %40 daha ucuzdur.
- AMD'nin geçmişte geride kalmasının nedeni, donanım değil yazılım desteğindeki eksiklikti.
-
ROCm için makine öğrenimi derleme
- MLC (Makine Öğrenimi Derleme), makine öğrenimi işlerini otomatik olarak optimize eden yeni bir tekniktir.
- MLC-LLM, Apache TVM Unity tabanlıdır ve farklı arka uçlarda yüksek performanslı genel dağıtım sağlar.
- Python tabanlı iş akışıyla dil modelleri derlenir, GPU çekirdeklerinin düzeni ve zamanlaması optimize edilir.
-
AMD GPU ve APU için MLC
- AMD GPU için destek sağlayan yöntemler: ROCm, OpenCL, Vulkan, WebGPU
- ROCm yığını, AMD'nin son dönemde benimsediği yaklaşım olup CUDA yığınına benzer birçok bileşen içerir.
- Vulkan, en yeni grafik standardı olarak GPU cihazları arasında en geniş destek yelpazesini sunar.
- MLC, otomatik kod üretimini destekleyerek her bir GPU çekirdeğini yeniden yapılandırmaya gerek kalmadan farklı yöntemleri destekler.
-
MLC Python paketiyle yapılan benchmarklar
- Llama 2 7B ve 13B modelleri 4 bit kuantizasyonla benchmarklandı.
- Tekli batch çıkarım performansı, ROCm 5.6'nın piyasaya sürülmesiyle NVIDIA 4090'ın %80 hızına ulaştı.
-
SteamDeck'te Vulkan ile çalıştırma
- AMD APU'lu SteamDeck'te Vulkan kullanılarak çalıştırma yapılabilir.
- ROCm'de GPU VRAM'i BIOS'ta 4 GB ile sınırlıdır, ancak Mesa Vulkan sürücüsü entegre belleği kullanarak 16 GB'ye kadar genişletebilir.
-
Tartışmalar ve gelecekteki çalışmalar
- Donanım kullanılabilirliği, üretken yapay zeka döneminde öne çıkan önemli bir konu haline geldi.
- ML derleme, donanım arka uçları genelinde yüksek performanslı genel dağıtımı mümkün kılar.
- Tüketici GPU'su üzerine yapılan çalışmalar bulut GPU'larına da genellenebilir.
- Topluluğun, MLC'nin genel dağıtım akışını temel alarak çözümler geliştirmesi teşvik edildi.
-
Nihai sonuç
- Makine öğrenimi sistem mühendisliği sürekli bir sorundur.
- NVIDIA yine de inovasyon yoluyla bu alanda liderliğini sürdürmektedir ve yeni donanım ile yazılım gelişmelerle bunu değiştirebileceği öngörülmektedir.
- Python tabanlı ML derleme geliştirme akışı sayesinde ROCm optimizasyon desteği yalnızca birkaç saat içinde sağlanabildi.
-
Bağlantılar ve teşekkürler
- MLC LLM dağıtımıyla ilgili ayrıntılı kılavuz için proje sayfasına bakın.
- MLC LLM kaynak kodu resmi GitHub deposunda bulunabilir.
- Apache TVM topluluğuna ve TVM Unity derleyici geliştiricilerine teşekkür ederiz.
1 yorum
Hacker News yorumları
AMD'nin tüketici GPU'su (RX7900XTX), veri merkezi için tasarlanan GPU'lar (MI300X) ile farklı performans gösteriyor; bunun nedeni RDNA ile CDNA mimarileri arasındaki fark. AMD'nin 2026 civarında UDNA mimarisini piyasaya sürmeyi planladığı belirtiliyor. CentML, AMD CDNA ve HIP desteğini Hidet derin öğrenme derleyicisine entegre etmeye çalışıyor.
Birkaç start-up, AMD GPU'larını kullanarak Nvidia'nın tekelini kırmaya çalışıyor. Felafax, Lamini, tensorwave ve SlashML buna örnek. Bazıları CUDA engelinin yaklaşık 18 ay sürdüğünü iddia ediyor.
TVM ve MLC üzerinde çalışan ekip, OctoAI'de NVIDIA'ya katıldı.
Phi-4 Q6'yı 7950XTX ve 7900XT'de test eden kişi, yalnızca CPU ile bile çok hızlı çalıştığını ve AMD'nin ev içi kullanım için uygun olma potansiyelini gördüğünü belirtti.
ML topluluğunun neden CUDA dışına çıkmadığını anlayamıyorum. CUDA kapalı ve platformlar arası değil. Yapay zeka/LLM gelişimiyle platformlar arası geçişin çok daha hızlı olması beklenirdi.
İkinci el 3090'lar 600-900$ arasında; 7900'den daha hızlı ve CUDA sayesinde daha çok yönlü.
Verimliliği artırmak önemli; fiyat/performansın yanı sıra güç ve hesaplama verimliliği de gerekiyor. llama.cpp ile standart bir CPU'da çıkarım çalıştırmayı deniyorum.
Modular, AMD GPU'larında %93 GPU kullanım oranına ulaştıklarını iddia ederek resmi erken erişim sürümünü gelecek yılın başında duyurmayı planlıyor. NVIDIA GPU performansı hakkındaki olumlu geri bildirimleri görünce iyimserliklerini artıyor.