3 puan yazan GN⁺ 2024-09-09 | 2 yorum | WhatsApp'ta paylaş
  • 8 adet RTX 3090 ekran kartıyla çalışan özel bir LLM sunucusu. Toplam 192GB VRAM
  • Meta'nın Llamma-3.1 405B modelini çalıştırmak düşünülerek kuruldu

Arka plan hikayesi

  • Mart ayında 48GB VRAM ile LLM deneyleri yürütürken zorluk yaşandı
  • Daha fazla VRAM gerektiği hissedilince yeni bir sistem kurmaya karar verildi
  • CPU/platform seçimi, bellek hızının önemi ve PCIe lane ihtiyacı gibi çeşitli sorular ortaya çıktı
  • Saatler süren araştırmanın ardından şu platform seçildi
    • Asrock Rack ROMED8-2T anakart (7x PCIe 4.0x16 yuva, 128 PCIe lane)
    • AMD Epyc Milan 7713 CPU (2.00 GHz/3.675GHz boost, 64 çekirdek/128 iş parçacığı)
    • 512GB DDR4-3200 3DS RDIMM bellek
    • 3 adet 1600 watt güç kaynağı
    • 8x RTX 3090 GPU (4x NVLink, her çift için 112GB/s veri aktarım hızı)

Blog serisi duyurusu

  • Bu sistemi toplarken karşılaşılan zorluklar
    • Metal çerçeveye delik açma ve 30 amper 240 volt devre kesici ekleme işi
    • CPU soket pinlerini eğmek (evde denemeyin)
  • PCIe riser sorunları ve SAS cihaz adaptörleri, redriver'lar ve retimer'ların önemi
  • NVLink hızı, PCIe lane bant genişliği, VRAM aktarım hızı ve Nvidia'nın yazılım seviyesinde P2P yerel PCIe bant genişliğini engellemesi
  • TensorRT-LLM, vLLM ve Aphrodite Engine gibi çıkarım motorlarının benchmark'ları
  • Kendi LLM eğitimleri ve ince ayar çalışmaları

Sonuç

  • Teknolojinin gelişimini izlerken, 2004'te 60GB HDD sahibi olduğundaki heyecanı hatırlatıyor
  • 20 yıl sonra, 192GB VRAM'in çok büyük kapasite sayıldığı günleri hatırlıyor olabiliriz
  • Bu proje aracılığıyla geleceğin harika teknolojilerini üretmeye katkı sunmak isteniyor

GN⁺ özeti

  • Bu yazı, yapay zeka modelleri için yüksek performanslı bir sunucu kurma sürecini ele alıyor
  • Güncel GPU'lar ve yüksek performanslı CPU kullanarak bir LLM sunucusunun nasıl kurulacağını anlatıyor
  • Teknolojik ilerlemenin hızı ve geleceğe dair beklentiler ifade ediliyor
  • Benzer işlevlere sahip projeler arasında Nvidia'nın DGX sistemleri ve Google'ın TPU'ları bulunuyor

2 yorum

 
brainer 2024-09-09

Sadece kıskanabiliyorum..

 
GN⁺ 2024-09-09
Hacker News yorumu
  • Birinci yorum: Kişisel veri gizliliği için kendi sunucusunu kurmuş. Platformların çıktı kalitesindeki son düşüş nedeniyle bu kuruluma para harcamış olmaktan pişman değil.

    • Tensör paralelleştirme ve batch inference kullanarak etkileyici işler yapıyor.
    • Kişisel verileri kullanarak modeli ince ayar yapıyor ve sentetik veri üretiyor.
    • Şu anda bir eğitim projesi olarak modeli sıfırdan inşa ediyor; sorunları çözdüğünde bir öğretici yazmayı planlıyor.
    • Bir blog başlatmış ve öğrendikleriyle keşifleri hakkında bir yazı dizisi planlıyor.
    • Denemek istenen konular veya fikirler varsa paylaşmaya hazır.
  • İkinci yorum: 192GB VRAM'in çok göründüğü günleri bir gün hatırlayabileceğimizi söylüyor.

    • NAS için yüksek kapasiteli HDD satın almak zorlaştı ve fiyatlar çok yükseldi.
    • Yapay zekada da benzer bir şeyin olmasını bekliyor.
    • Büyük bulut sağlayıcıları ucuz ev tipi donanımla ilgilenmiyor; verileri bulut hizmetleri üzerinden kazımak istiyorlar.
  • Üçüncü yorum: 8 GPU kullanarak 4K monitörleri çerçevesiz mini piksel duvarına dönüştüren bir proje.

    • Yerel video kompozisyonu ve yapay zeka tarafından üretilen arka planlar için bir proje.
    • Gerçek zamanlı fotogerçekçi arka planlar sunduğunu söyleyerek "The Mandalorian" örneğini anıyor.
  • Dördüncü yorum: NVLink'in ne kadar yardımcı olduğunu merak ediyor.

    • 2 adet 3090'lı rig kurmuş ve EPYC ile daha fazla kart kullanıp kullanamayacağını merak ediyor.
    • Toplam maliyet yaklaşık $3500; bu kurulumun ise $12-15k civarında olacağını tahmin ediyor.
  • Beşinci yorum: Çok havalı olduğunu, ancak 24/7 verimli şekilde kullanılmazsa maliyetinin yüksek olduğunu söylüyor.

  • Altıncı yorum: Tinybox ile maliyet karşılaştırmasını merak ediyor.

    • 6 adet 4090 kullanılırsa $25k, 6 adet 7900XTX kullanılırsa $15k.
    • Güç kaynağı, CPU, depolama, soğutma, montaj ve kargo dahil tam paket.
  • Yedinci yorum: Benzer bir kurulumu bodrumunda bulunduruyor.

    • Birden fazla düğümden oluşuyor ve toplamda 16 adet 3090 kullanıyor.
    • 30A 240V devre çektirmesi gerekmiş.
  • Sekizinci yorum: Anakartta 7 PCIe yuvası varken 8 GPU'nun nasıl bağlandığını merak ediyor.

    • Bant genişliğini kısıtlayarak aynı yuvada iki GPU kullanılıp kullanılmadığını soruyor.
  • Dokuzuncu yorum: 7 adet PCIe 4.0 x16 yuvası varsa 8. kartın nasıl bağlandığını merak ediyor.

  • Onuncu yorum: Bu seriyi okumayı dört gözle bekliyor.

    • Açık kaynak modeller için maliyet/performans oranına dair grafikler veya veriler bulmak istiyor.
    • $/ELO değerini (makineyi kurma ve çalıştırma maliyeti ile modelin ortalama performansını gösteren değer) bulmak istiyor.