Bodrumdan sunulan yapay zeka – 192GB + 8x RTX 3090

(ahmadosman.com)

3 puan yazan GN⁺ 2024-09-09 | 1 yorum | WhatsApp'ta paylaş

Kişisel LLM deneylerinin ölçeği büyüdükçe, 8x RTX 3090 ve toplam 192GB VRAM içeren özel bir yapay zeka sunucusunu evde doğrudan kurdu
Mevcut 48GB VRAM ortamıyla deneylere ayak uydurmak zorlaştığı için, Meta’nın Llama-3.1 405B modelini çalıştırmayı da hesaba katan çoklu GPU düğümüne genişletti
Yapılandırmanın merkezinde Asrock Rack ROMED8-2T, AMD Epyc Milan 7713, 512GB DDR4-3200 RDIMM, 3 adet 1600W güç kaynağı ve 4x NVLink ile bağlanan 8 adet RTX 3090 bulunuyor
NVLink, her GPU çifti için 112GB/s aktarım hızı sağlıyor; PCIe hatları, riser’lar, çıkarım motorları ve fine-tuning gibi darboğazlar da sonraki yazıların ana konuları arasında kalıyor
Ev tipi büyük LLM sunucusu kurmak mümkün olsa da, montaj zorlukları ve maliyetli büyük hatalar nedeniyle donanım seçimi ve doğrulama süreci başarıyı belirliyor

Bodrumdaki LLM sunucusunun hedefi

En yeni yan proje olan AI from The Basement, 8x RTX 3090 ekran kartı ve toplam 192GB VRAM’e sahip özel bir LLM sunucusu
Hedeflerden biri Meta’nın Llama-3.1 405B modelini çalıştırmak
Daha önce LLM deneyleri için 48GB VRAM kullanılıyordu, ancak 2024 Mart civarında bu kapasiteyle deneylere ayak uydurmanın zor olduğu sonucuna varıldı
Donanım seçimi sürecinde CPU ve platform, bellek hızı, PCIe hat sayısı, 2^n adet GPU yapılandırması, tensor paralelliği ve çıkarım motoru seçimi birlikte değerlendirildi

Donanım yapılandırması ve kurulum sürecindeki meseleler

Nihai platform; sunucu sınıfı anakart, EPYC CPU, yüksek kapasiteli bellek, çoklu güç kaynağı ve 8 GPU kombinasyonundan oluşuyor
- Asrock Rack ROMED8-2T anakart: 7x PCIe 4.0 x16 yuva, 128 PCIe hattı
- AMD Epyc Milan 7713 CPU: 2.00GHz, boost 3.675GHz, 64 çekirdek/128 izlek
- 512GB DDR4-3200 3DS RDIMM bellek
- 3 adet 1600W güç kaynağı
- 8x RTX 3090 GPU ve 4x NVLink
NVLink, her GPU çifti arasında 112GB/s veri aktarım hızı sağlıyor
Gerçek montajda metal çerçeve deliklerinin işlenmesi, 30A 240V devre kesici eklenmesi ve CPU soket pinlerinin eğilmesi gibi fiziksel sorunlar yaşandı
PCIe riser sorunları ve hatasız PCIe bağlantısı için SAS Device Adapter, Redriver ve Retimer’ın önemi de ele alınıyor
Sonraki yazıda NVLink hızı, PCIe hat bant genişliği, VRAM aktarım hızı ve Nvidia’nın yazılım düzeyinde P2P native PCIe bant genişliğini engelleme kararı devam edecek konular arasında
TensorRT-LLM, vLLM, Aphrodite Engine gibi tensor paralelliği destekleyen çıkarım motorlarının benchmark’ları ile kendi LLM eğitimi ve fine-tuning de sonraki konular olarak kalıyor
2004’te 60GB HDD’ye sahip olduğu için sevinmesiyle kıyaslayarak, 20 yıl sonra tek bir makinenin ekran kartlarında bunun üç katından fazla kapasiteye ulaşmasını teknolojik ilerlemeye örnek gösteriyor
Projenin amacı, gelecekte ortaya çıkacak harika şeylerin yapılmasına katkıda bulunmak; bir gün 192GB VRAM’in de çok sayılmadığını geriye dönüp söyleyebileceğimizi düşünüyor
Bu blog yazısı serisinin II. bölümü devam yazısı olarak sunuluyor

1 yorum

brainer 2024-09-09

Sadece kıskanabiliyorum..

Bodrumdan sunulan yapay zeka – 192GB + 8x RTX 3090

Bodrumdaki LLM sunucusunun hedefi

Donanım yapılandırması ve kurulum sürecindeki meseleler

İlgili okumalar

1 yorum