3 puan yazan GN⁺ 2024-09-09 | 1 yorum | WhatsApp'ta paylaş
  • Kişisel LLM deneylerinin ölçeği büyüdükçe, 8x RTX 3090 ve toplam 192GB VRAM içeren özel bir yapay zeka sunucusunu evde doğrudan kurdu
  • Mevcut 48GB VRAM ortamıyla deneylere ayak uydurmak zorlaştığı için, Meta’nın Llama-3.1 405B modelini çalıştırmayı da hesaba katan çoklu GPU düğümüne genişletti
  • Yapılandırmanın merkezinde Asrock Rack ROMED8-2T, AMD Epyc Milan 7713, 512GB DDR4-3200 RDIMM, 3 adet 1600W güç kaynağı ve 4x NVLink ile bağlanan 8 adet RTX 3090 bulunuyor
  • NVLink, her GPU çifti için 112GB/s aktarım hızı sağlıyor; PCIe hatları, riser’lar, çıkarım motorları ve fine-tuning gibi darboğazlar da sonraki yazıların ana konuları arasında kalıyor
  • Ev tipi büyük LLM sunucusu kurmak mümkün olsa da, montaj zorlukları ve maliyetli büyük hatalar nedeniyle donanım seçimi ve doğrulama süreci başarıyı belirliyor

Bodrumdaki LLM sunucusunun hedefi

  • En yeni yan proje olan AI from The Basement, 8x RTX 3090 ekran kartı ve toplam 192GB VRAM’e sahip özel bir LLM sunucusu
  • Hedeflerden biri Meta’nın Llama-3.1 405B modelini çalıştırmak
  • Daha önce LLM deneyleri için 48GB VRAM kullanılıyordu, ancak 2024 Mart civarında bu kapasiteyle deneylere ayak uydurmanın zor olduğu sonucuna varıldı
  • Donanım seçimi sürecinde CPU ve platform, bellek hızı, PCIe hat sayısı, 2^n adet GPU yapılandırması, tensor paralelliği ve çıkarım motoru seçimi birlikte değerlendirildi

Donanım yapılandırması ve kurulum sürecindeki meseleler

  • Nihai platform; sunucu sınıfı anakart, EPYC CPU, yüksek kapasiteli bellek, çoklu güç kaynağı ve 8 GPU kombinasyonundan oluşuyor
    • Asrock Rack ROMED8-2T anakart: 7x PCIe 4.0 x16 yuva, 128 PCIe hattı
    • AMD Epyc Milan 7713 CPU: 2.00GHz, boost 3.675GHz, 64 çekirdek/128 izlek
    • 512GB DDR4-3200 3DS RDIMM bellek
    • 3 adet 1600W güç kaynağı
    • 8x RTX 3090 GPU ve 4x NVLink
  • NVLink, her GPU çifti arasında 112GB/s veri aktarım hızı sağlıyor
  • Gerçek montajda metal çerçeve deliklerinin işlenmesi, 30A 240V devre kesici eklenmesi ve CPU soket pinlerinin eğilmesi gibi fiziksel sorunlar yaşandı
  • PCIe riser sorunları ve hatasız PCIe bağlantısı için SAS Device Adapter, Redriver ve Retimer’ın önemi de ele alınıyor
  • Sonraki yazıda NVLink hızı, PCIe hat bant genişliği, VRAM aktarım hızı ve Nvidia’nın yazılım düzeyinde P2P native PCIe bant genişliğini engelleme kararı devam edecek konular arasında
  • TensorRT-LLM, vLLM, Aphrodite Engine gibi tensor paralelliği destekleyen çıkarım motorlarının benchmark’ları ile kendi LLM eğitimi ve fine-tuning de sonraki konular olarak kalıyor
  • 2004’te 60GB HDD’ye sahip olduğu için sevinmesiyle kıyaslayarak, 20 yıl sonra tek bir makinenin ekran kartlarında bunun üç katından fazla kapasiteye ulaşmasını teknolojik ilerlemeye örnek gösteriyor
  • Projenin amacı, gelecekte ortaya çıkacak harika şeylerin yapılmasına katkıda bulunmak; bir gün 192GB VRAM’in de çok sayılmadığını geriye dönüp söyleyebileceğimizi düşünüyor
  • Bu blog yazısı serisinin II. bölümü devam yazısı olarak sunuluyor

1 yorum

 
brainer 2024-09-09

Sadece kıskanabiliyorum..