1 puan yazan GN⁺ 2024-06-29 | 1 yorum | WhatsApp'ta paylaş

Altyapı kurulumu ve betik yapılandırması

Giriş

  • Birkaç ay boyunca küçük bir araştırma ekibi ve mühendislik ekibi, kendi altyapılarında 70B parametreli bir modeli sıfırdan eğiterek reasoning ile ilgili görevlerde zero-shot GPT-4o'yu geride bıraktı.
  • Bugün, ilk küme kurulumundan işletim sistemi kurulumuna ve eğitim sırasında ortaya çıkan hataların otomatik olarak kurtarılmasına kadar gerekli altyapı yapılandırmasına dair kapsamlı bir kılavuz paylaşılıyor.
  • Her aşamada yaşanan zorluklar ve çözüm yöntemleri ayrıntılı olarak açıklanıyor; ayrıca diğer ekiplerin kararlı bir altyapıyı daha kolay kurabilmesi için altyapı betikleri de yayımlanıyor.

Arka plan: Bu sistem nasıl çalışıyor?

  • Büyük dil modeli deneylerini hızlı yürütmek için hızlı GPU'lara ihtiyaç var.
  • 4.092 H100 GPU'nun 511 bilgisayara dağıtıldığı bir küme kullanılıyor.
  • GPU'lar arasında yüksek hızlı iletişim, InfiniBand ağı üzerinden sağlanıyor.

Süreç: bare metal'den tam çalışan bir kümeye nasıl geçilir

Tekil makinelerin sağlanması

  • Yönetim ağı üzerinden kümeye ilk Ethernet bağlantısı kuruluyor ve BMC'ye (Baseboard Management Controller) erişiliyor.
  • İlk sunucuya Ubuntu 22.04, iDRAC kullanılarak kuruluyor; ardından bunun üzerinden diğer sunucular yapılandırılıyor.

Tüm makinelere işletim sistemi kurulumu

  • Kalan sunucular, MAAS yazılımı kullanılarak provision ediliyor.
  • PXE boot ve otomatik iDRAC araçları kullanılarak ağ üzerinden önyükleme yapılıyor ve MAAS'ın PXE önyükleme isteklerine yanıt verecek şekilde yapılandırılması sağlanıyor.

Arızalı makinelerin teşhisi

  • Makinelerin yaklaşık %10'unda, çoğunlukla fiziksel sorunlardan kaynaklanan önyükleme başarısızlığı yaşanıyor.
  • Otomatik kontrollerle sorunlar tespit ediliyor; Dell'den yeniden test isteniyor veya veri merkezi personeli için ticket açılıyor.

Asgari düzeyde gözlemlenebilir metal yapılandırması

  • Tüm sunuculara Docker, veri merkezi GPU sürücüleri, Prometheus node exporter ve benzeri araçlar kuruluyor.
  • Temel GPU tanılamaları çalıştırılarak GPU'ların büyük bölümünün düzgün çalıştığı doğrulanıyor.

Tek düğümde GPU eğitimi

  • Tüm makinelerin tek başına GPU iş yüklerini çalıştırabildiği doğrulanıyor.
  • GPU ile ilgili hatalar gideriliyor, PCIe veri yolu ile ağ kartları arasındaki bağlantı sorunları çözülüyor.

InfiniBand sağlama

  • UFM (Unified Fabric Manager) kuruluyor; ağ anahtarları tespit edilip fiziksel konumlarına göre adlandırılıyor.
  • Ağ kablolama sorunları ve sıcaklık uyarısı problemleri çözülüyor.

Tamamen sağlıklı makinelerin garanti edilmesi

  • Çeşitli sağlık kontrolleriyle eğitimde kullanılabilecek sağlıklı host'lar doğrulanıyor.
  • GPU, disk alanı, Docker, dmesg, iDRAC, diskler, InfiniBand, NVLink, GDR, VBIOS, Flint, PSB gibi birçok kontrol gerçekleştiriliyor.

Yaygın eğitim sorunlarının teşhisi

  • Donanım düzgün çalışmaya başladıktan sonra eğitim başlatılıyor.
  • Başlangıçta çökme, süreç ortasında çökme, stack trace bilgisi olmadan durma ve eğitim hızının düşmesi gibi sorunlar çözülüyor.

Altyapı araçlarının iyileştirilmesi

  • Eğitimin sorunsuz ilerlemesi için çeşitli araçlar ve sistemler geliştiriliyor.
  • Arızalı makineler ve ağ bileşenleri otomatik olarak devre dışı bırakılıyor, onarım talepleri otomatikleştiriliyor.
  • Yerel mirror dosya sistemi ve yerel dağıtık Docker registry kuruluyor.
  • Performans izleme araçları kuruluyor; yavaş eğitim batch'lerini tespit etmek ve nedenlerini anlamak için araçlar yazılıyor.

GN⁺ görüşü

  • Bu yazı, büyük ölçekli küme kurulumu ve yönetimine dair pratik deneyimler ve çözüm yöntemleri sunduğu için oldukça faydalı.
  • Büyük dil modeli eğitimi için gereken altyapı kurulumunun karmaşıklığını iyi açıklıyor.
  • Diğer ekiplerin benzer bir altyapı kurarken yararlanabileceği çeşitli betikler ve araçlar sunuyor.
  • InfiniBand ağının önemini ve kurulum sürecinde ortaya çıkabilecek sorunları iyi açıklıyor.
  • Yeni teknolojiler veya açık kaynak çözümler benimsenirken dikkate alınması gereken noktaları ve bunların artılarını ile eksilerini iyi anlatıyor.

1 yorum

 
GN⁺ 2024-06-29
Hacker News yorumu
  • Küçük bir araştırma ekibi, kendi altyapısında 70B parametreli bir modeli eğiterek akıl yürütme ile ilgili görevlerde zero-shot GPT-4'ü geride bıraktı

    • InfiniBand, Ethernet, GPU, düğümler gibi tüm bileşenlerin kusursuz çalışması gerekiyor
    • 12.000'den fazla bağlantıdan yalnızca biri bile kararsızsa tüm eğitim yavaşlayabiliyor
    • Açık kaynak betikleri ve altyapı kurulumuna dair kapsamlı bir kılavuz paylaşılıyor
    • Bu, 70B model eğitimi hakkındaki üç bölümden biri; diğer iki bölüm değerlendirme ve CARBS hiperparametre optimizasyonuna odaklanıyor
  • Bir kümede 4.092 adet H100 GPU, 511 bilgisayara dağıtılmış durumda

    • Bu, GPU maliyeti olarak 100 milyon doların üzerine denk geliyor
    • Bunun oyun bilgisayarı bütçesiyle yapılıp yapılamayacağı merak ediliyor
  • Bu konu birkaç gün önce Latent Space podcast'inde tartışıldı

    • Kararların arka planını duymak için iyi bir bölüm
  • Neden bu kadar fazla PC donanımına ihtiyaç olduğu merak ediliyor

    • Bunun PCI + InfiniBand arka ucu, GPU'lar ve küçük ARM denetleyicilerle kurulup kurulamayacağı düşünülüyor
    • Bunun önceki tasarım tercihlerinin ataleti mi yoksa özel GPU denetleyicileri için pazar eksikliği mi olduğu sorgulanıyor
  • Aynı donanımla, tokenleştirilmiş eğitim verisi yerine ham Unicode üzerinde eğitimin tekrarlanması ilginç olabilir

    • Yazım ve vezin performansındaki farkın görülmesi isteniyor
  • 4.092 adet H100 GPU

    • "self-coding" üzerinde çalışılıyor
    • Bunun no-code veya minimal code bir çözüm olabileceği düşünülüyor
    • Sitede ilginç makaleler ve kaynaklar var
  • Modeli kurmak için gereken toplam güç tüketimi merak ediliyor

    • Güç ve soğutmaya ilişkin sayılar olup olmadığı soruluyor
    • Mark Zuckerberg'in bir sonraki 1GW modeli planladığından bahsettiği belirtiliyor
  • Toplam maliyetin ne kadar olduğu merak ediliyor

    • Donanım maliyeti, geliştirme süresi, elektrik ve soğutma maliyetleri dahil
  • Cisco, 800G port hızı düzeyinde yeni bir NVIDIA iş birliği yürütüyor

    • InfiniBand'in GPU tarafından erişilebilir olup olmadığı merak ediliyor
    • Paylaşım için teşekkür ediliyor
  • Model eğitildikten sonra donanım ve altyapıya ne olduğu merak ediliyor