Altyapı kurulumu ve betik yapılandırması
Giriş
- Birkaç ay boyunca küçük bir araştırma ekibi ve mühendislik ekibi, kendi altyapılarında 70B parametreli bir modeli sıfırdan eğiterek reasoning ile ilgili görevlerde zero-shot GPT-4o'yu geride bıraktı.
- Bugün, ilk küme kurulumundan işletim sistemi kurulumuna ve eğitim sırasında ortaya çıkan hataların otomatik olarak kurtarılmasına kadar gerekli altyapı yapılandırmasına dair kapsamlı bir kılavuz paylaşılıyor.
- Her aşamada yaşanan zorluklar ve çözüm yöntemleri ayrıntılı olarak açıklanıyor; ayrıca diğer ekiplerin kararlı bir altyapıyı daha kolay kurabilmesi için altyapı betikleri de yayımlanıyor.
Arka plan: Bu sistem nasıl çalışıyor?
- Büyük dil modeli deneylerini hızlı yürütmek için hızlı GPU'lara ihtiyaç var.
- 4.092 H100 GPU'nun 511 bilgisayara dağıtıldığı bir küme kullanılıyor.
- GPU'lar arasında yüksek hızlı iletişim, InfiniBand ağı üzerinden sağlanıyor.
Süreç: bare metal'den tam çalışan bir kümeye nasıl geçilir
Tekil makinelerin sağlanması
- Yönetim ağı üzerinden kümeye ilk Ethernet bağlantısı kuruluyor ve BMC'ye (Baseboard Management Controller) erişiliyor.
- İlk sunucuya Ubuntu 22.04, iDRAC kullanılarak kuruluyor; ardından bunun üzerinden diğer sunucular yapılandırılıyor.
Tüm makinelere işletim sistemi kurulumu
- Kalan sunucular, MAAS yazılımı kullanılarak provision ediliyor.
- PXE boot ve otomatik iDRAC araçları kullanılarak ağ üzerinden önyükleme yapılıyor ve MAAS'ın PXE önyükleme isteklerine yanıt verecek şekilde yapılandırılması sağlanıyor.
Arızalı makinelerin teşhisi
- Makinelerin yaklaşık %10'unda, çoğunlukla fiziksel sorunlardan kaynaklanan önyükleme başarısızlığı yaşanıyor.
- Otomatik kontrollerle sorunlar tespit ediliyor; Dell'den yeniden test isteniyor veya veri merkezi personeli için ticket açılıyor.
Asgari düzeyde gözlemlenebilir metal yapılandırması
- Tüm sunuculara Docker, veri merkezi GPU sürücüleri, Prometheus node exporter ve benzeri araçlar kuruluyor.
- Temel GPU tanılamaları çalıştırılarak GPU'ların büyük bölümünün düzgün çalıştığı doğrulanıyor.
Tek düğümde GPU eğitimi
- Tüm makinelerin tek başına GPU iş yüklerini çalıştırabildiği doğrulanıyor.
- GPU ile ilgili hatalar gideriliyor, PCIe veri yolu ile ağ kartları arasındaki bağlantı sorunları çözülüyor.
InfiniBand sağlama
- UFM (Unified Fabric Manager) kuruluyor; ağ anahtarları tespit edilip fiziksel konumlarına göre adlandırılıyor.
- Ağ kablolama sorunları ve sıcaklık uyarısı problemleri çözülüyor.
Tamamen sağlıklı makinelerin garanti edilmesi
- Çeşitli sağlık kontrolleriyle eğitimde kullanılabilecek sağlıklı host'lar doğrulanıyor.
- GPU, disk alanı, Docker, dmesg, iDRAC, diskler, InfiniBand, NVLink, GDR, VBIOS, Flint, PSB gibi birçok kontrol gerçekleştiriliyor.
Yaygın eğitim sorunlarının teşhisi
- Donanım düzgün çalışmaya başladıktan sonra eğitim başlatılıyor.
- Başlangıçta çökme, süreç ortasında çökme, stack trace bilgisi olmadan durma ve eğitim hızının düşmesi gibi sorunlar çözülüyor.
Altyapı araçlarının iyileştirilmesi
- Eğitimin sorunsuz ilerlemesi için çeşitli araçlar ve sistemler geliştiriliyor.
- Arızalı makineler ve ağ bileşenleri otomatik olarak devre dışı bırakılıyor, onarım talepleri otomatikleştiriliyor.
- Yerel mirror dosya sistemi ve yerel dağıtık Docker registry kuruluyor.
- Performans izleme araçları kuruluyor; yavaş eğitim batch'lerini tespit etmek ve nedenlerini anlamak için araçlar yazılıyor.
GN⁺ görüşü
- Bu yazı, büyük ölçekli küme kurulumu ve yönetimine dair pratik deneyimler ve çözüm yöntemleri sunduğu için oldukça faydalı.
- Büyük dil modeli eğitimi için gereken altyapı kurulumunun karmaşıklığını iyi açıklıyor.
- Diğer ekiplerin benzer bir altyapı kurarken yararlanabileceği çeşitli betikler ve araçlar sunuyor.
- InfiniBand ağının önemini ve kurulum sürecinde ortaya çıkabilecek sorunları iyi açıklıyor.
- Yeni teknolojiler veya açık kaynak çözümler benimsenirken dikkate alınması gereken noktaları ve bunların artılarını ile eksilerini iyi anlatıyor.
1 yorum
Hacker News yorumu
Küçük bir araştırma ekibi, kendi altyapısında 70B parametreli bir modeli eğiterek akıl yürütme ile ilgili görevlerde zero-shot GPT-4'ü geride bıraktı
Bir kümede 4.092 adet H100 GPU, 511 bilgisayara dağıtılmış durumda
Bu konu birkaç gün önce Latent Space podcast'inde tartışıldı
Neden bu kadar fazla PC donanımına ihtiyaç olduğu merak ediliyor
Aynı donanımla, tokenleştirilmiş eğitim verisi yerine ham Unicode üzerinde eğitimin tekrarlanması ilginç olabilir
4.092 adet H100 GPU
Modeli kurmak için gereken toplam güç tüketimi merak ediliyor
Toplam maliyetin ne kadar olduğu merak ediliyor
Cisco, 800G port hızı düzeyinde yeni bir NVIDIA iş birliği yürütüyor
Model eğitildikten sonra donanım ve altyapıya ne olduğu merak ediliyor