6 puan yazan GN⁺ 2024-06-13 | 1 yorum | WhatsApp'ta paylaş
  • Meta, büyük dil modellerini (LLM) eğitmek için büyük ölçekli hesaplama gücüne ihtiyaç duyuyor
  • Geleneksel yapay zeka modeli eğitimi çok sayıda modeli eğitiyordu, ancak görece daha az sayıda GPU gerektiriyordu
  • Üretken yapay zekanın (GenAI) ortaya çıkmasıyla iş sayısı azaldı, ancak çok büyük işler gerekli hale geldi

Büyük ölçekli model eğitiminin zorlukları

  • Donanım güvenilirliği: Donanım arızaları nedeniyle eğitimin kesintiye uğramasını en aza indirmek için sıkı testler ve kalite kontrol gerekiyor.
  • Arıza durumunda hızlı kurtarma: Donanım arızası meydana geldiğinde hızlıca toparlanabilmek gerekiyor. Yeniden zamanlama ek yükünü azaltmak ve eğitimi hızlıca yeniden başlatmak gerekiyor.
  • Eğitim durumunun verimli şekilde korunması: Arıza durumunda eğitim durumunun verimli şekilde kaydedilip geri yüklenebilmesi gerekiyor.
  • GPU'lar arasında optimal bağlantı: Büyük ölçekli model eğitiminde GPU'lar arasında veri aktarımı kritik önem taşıyor. Bunun için yüksek hızlı ağ altyapısı ve verimli veri aktarım protokolleri gerekiyor.

Altyapı yığınının tüm katmanlarını iyileştirmek önemli

Eğitim yazılımı

  • Araştırmacıların PyTorch gibi açık kaynakları kullanarak araştırmadan üretime hızlıca geçebilmesini destekliyor.
  • Büyük ölçekli eğitim için yeni algoritmalar ve teknikler geliştiriyor, ayrıca yeni yazılım araçları ve framework'leri entegre ediyor.

Zamanlama

  • Kaynakları optimize etmek için karmaşık algoritmalar kullanarak, işlerin ihtiyaçlarına göre kaynak tahsisi yapıyor ve dinamik zamanlama uyguluyor.

Donanım

  • Büyük ölçekli model eğitimini işleyebilmek için yüksek performanslı donanım gerekiyor.
  • Mevcut donanımı optimize ediyor ve NVIDIA H100 GPU kullanan Grand Teton platformunu değiştirerek GPU'nun TDP'sini 700W'a çıkarıyor ve HBM3'e geçiyor.

Veri merkezi yerleşimi

  • GPU'ları ve sistemleri veri merkezine en uygun şekilde yerleştirerek kaynakları (güç, soğutma, ağ vb.) optimize ediyor.
  • Azami hesaplama yoğunluğu için mümkün olduğunca çok GPU rafı yerleştiriyor.

Güvenilirlik

  • Donanım arızalarında kesinti süresini en aza indirmek için tespit ve kurtarma planları hazırlıyor.
  • Sık görülen arıza modları: GPU'nun tanınmaması, DRAM ve SRAM UCE, donanım ağ kablosu sorunları.

  • Büyük ölçekli model eğitimi için yüksek hızlı ağ altyapısı ve verimli veri aktarım protokolleri gerekiyor.
  • RoCE ve InfiniBand olmak üzere iki ağ kümesi kurarak işletim deneyimi üzerinden öğreniyor.

Depolama

  • Büyük ölçekli veri depolama için yüksek kapasiteli, yüksek hızlı depolama teknolojilerine yatırım yapıyor ve belirli iş yüklerine uygun yeni veri depolama çözümleri geliştiriyor.

Geleceğe bakış

  • Yüz binlerce GPU kullanarak daha fazla veriyi işleyecek, daha uzun mesafeleri ve gecikmeleri ele alacak.
  • Yeni donanım teknolojilerini ve GPU mimarilerini benimseyerek altyapıyı geliştirmeyi planlıyor.
  • Yapay zekanın sürekli değişen ortamını keşfederken mümkün olan sınırları zorlamaya devam edecek.

1 yorum

 
GN⁺ 2024-06-13
Hacker News görüşleri
  • GPU bağlantı sorunu: GPU'nun PCIe veriyolunda tanınmaması sorunundan bahsediliyor.
  • Soğutma altyapısı: Mevcut hava soğutmalı ortam korunurken mekanik ve termal tasarımın değiştirilmesi gerekti.
  • Zaman kısıtları: Zaman kısıtlarının modelin genel kalitesini etkilediği belirtiliyor.
  • Meta'nın arama özelliği: Meta'nın yeni bir LLM eğitmek yerine arama özelliğini geliştirmesinin daha iyi olacağı yönünde bir görüş var.
  • Veri toplama yöntemi: Meta'nın verileri nasıl topladığı ve hazırladığı, özellikle de PII'yi (kişisel olarak tanımlanabilir bilgiler) nasıl ayıkladığı merak ediliyor.
  • Maliyet sorunu: LLM'lerin bulut dışındaki uygulamalarda maliyet nedeniyle gerçekçi olmayabileceği ifade ediliyor.
  • Küme kurulumu: İki adet 24k küme kurarak operasyonel deneyim kazanma girişimi etkileyici bulunuyor.
  • İş zamanlama: Büyük ölçekli makine dizilerinde işlerin nasıl zamanlandığına dair somut bilgi eksikliği var.
  • Gelir yaratma: Meta'nın LLM'leri büyük ölçekte kullanarak nasıl gelir elde edeceğinin net olmadığı söyleniyor.
  • Google'ın yapay zeka üstünlüğü: Google'ın özel silikon sayesinde yapay zeka alanında avantajlı olduğu görüşü dile getiriliyor.
  • Alan adı: Meta'nın alan adının hâlâ engineering.fb.com olmasının ilginç olduğu belirtiliyor.