4 puan yazan GN⁺ 2024-03-13 | 1 yorum | WhatsApp'ta paylaş
  • Meta, yapay zekanın geleceğine yönelik büyük yatırımının bir parçası olarak 24.576 GPU'luk iki küme duyurdu
    • Donanım, ağ, depolama, tasarım, performans ve yazılıma ilişkin ayrıntıları paylaştı
    • Bu küme tasarımı Llama 3 eğitimi için kullanıldı
  • Meta, açık bilgi işlem ve açık kaynağa bağlı
    • Bu kümeleri Grand Teton, OpenRack ve PyTorch temelinde inşa ediyor ve sektör genelinde açık inovasyonu sürdürmeye devam ediyor
  • Bu duyuru, iddialı altyapı yol haritasının bir adımı
    • 2024 sonuna kadar, neredeyse 600.000 H100'e eşdeğer hesaplama gücüne sahip portföyün bir parçası olarak 350.000 NVIDIA H100 GPU içeren altyapıyı büyütmeyi hedefliyor

Meta'nın büyük ölçekli AI kümelerine dair içgörüler

  • Meta'nın uzun vadeli vizyonu, herkesin faydalanabilmesi için açık ve sorumlu biçimde inşa edilmiş yapay genel zeka (AGI) oluşturmak
  • AGI'ye doğru ilerleme, yeni ürünler, uygulamalarda yeni AI özellikleri ve yeni AI odaklı bilgi işlem cihazları ortaya çıkarıyor
  • Meta'nın AI altyapısı kurma konusunda uzun bir geçmişi var ve 2022'de 16.000 NVIDIA A100 GPU içeren AI Research SuperCluster (RSC) hakkında ayrıntıları ilk kez paylaşmıştı

İç yapı

  • Yeni AI kümesi, RSC'den elde edilen başarılar ve dersler üzerine inşa edildi
  • Araştırmacı ve geliştirici deneyimi ile üretkenliğe odaklanarak, yüksek performanslı ağ yapısının verimliliği ve temel depolama kararları sayesinde daha büyük ve karmaşık modelleri destekliyor

  • Meta, günde onlarca trilyon AI model çalıştırmasını işliyor
  • Büyük ölçekli hizmet sunmak için son derece gelişmiş ve esnek bir altyapı gerekiyor
  • Meta, AI araştırmacılarının deneyimini optimize etmek ve veri merkezlerinin verimli çalışmasını sağlamak için kendi donanımını, yazılımını ve ağ yapısını özel olarak tasarlıyor

Hesaplama

  • İki küme de Meta'nın şirket içinde tasarladığı açık GPU donanım platformu Grand Teton kullanılarak kuruldu
  • Grand Teton, güç, kontrol, hesaplama ve fabric arayüzlerini tek bir kasada birleştirerek genel performansı, sinyal bütünlüğünü ve termal performansı iyileştiriyor

Depolama

  • AI eğitiminde depolama kritik bir rol oynasa da en az bahsedilen yönlerden biri
  • Meta'nın 'Tectonic' dağıtık depolama çözümünün bir sürümü flash medyaya optimize edildi
    • Şirket içinde geliştirdiği FUSE(Linux Filesystem in Userspace) API aracılığıyla AI kümelerinin veri ve checkpoint gereksinimlerini karşılıyor
    • Binlerce GPU, checkpoint'leri senkronize biçimde kaydedip yükleyebiliyor ve veri yükleme için gerekli esnek, yüksek verimli, eksabayt ölçekli depolamayı sağlıyor
  • Hammerspace ile iş birliği yaparak paralel bir network file system (NFS) dağıtımını birlikte geliştirdi

Performans

  • Büyük ölçekli AI kümeleri kurarken performans ve kullanım kolaylığını aynı anda en üst düzeye çıkarmak önemli bir ilke
  • AI sistemlerinin sınırlarını zorlarken tasarımın ölçeklenme kabiliyetini test etmenin en iyi yolu, sistemi gerçekten kurmak, optimize etmek ve test etmek
  • Meta, sistemi kurup optimize ederek ve gerçek testler yaparak tasarımın ölçeklenebilirliğini sınadı
  • AI iş yüklerini destekleyen temel AI framework'ü PyTorch'u geliştirmeyi sürdürerek onlarca, hatta yüz binlerce GPU eğitimi için hazır hale getiriyor

Açık AI inovasyonuna bağlılık

  • Meta, AI yazılımı ve donanımında açık inovasyona olan bağlılığını sürdürüyor
  • OCP'nin kurucu üyelerinden biri olarak açık donanım inovasyonunu desteklemeye devam ediyor ve OCP topluluğuna Grand Teton ile Open Rack gibi tasarımlar sunuyor
  • Ayrıca sektörün büyük bir bölümünü destekleyen AI yazılım framework'ü PyTorch'un en büyük ve başlıca katkı sağlayıcısı
  • Açık kaynak donanım ve yazılım, büyük ölçekli sorunların çözümüne yardımcı olan önemli araçlar olarak görülüyor

Meta'nın AI altyapısının geleceği

  • Bu iki AI eğitim kümesi tasarımı, yapay zekanın geleceğine yönelik daha büyük bir yol haritasının parçası
  • Meta, 2024 sonuna kadar, 600.000 H100'e eşdeğer hesaplama gücüne sahip portföyün parçası olarak 350.000 NVIDIA H100 içeren altyapıyı büyütmeyi planlıyor

GN⁺ görüşü

  • Meta'nın duyurduğu 24k GPU kümesi, özellikle büyük ölçekli AI model eğitimi için gerekli güçlü hesaplama kaynaklarını sağlayarak AI araştırma ve geliştirmesinde önemli bir ilerlemeyi ifade ediyor
  • Bu tür bir altyapı, AI modellerinin karmaşıklığı ve boyutu artmayı sürdürdükçe araştırmacıların daha yenilikçi AI çözümleri geliştirmesi için zemin hazırlıyor
  • Meta'nın açık kaynak ve açık bilgi işleme bağlılığı, sektör genelinde inovasyonu teşvik edebilir ve diğer kuruluşların bu teknolojilerden yararlanarak kendi AI çözümlerini geliştirmesine yardımcı olabilir
  • Ancak bu kadar büyük kümelerde devasa enerji tüketimiyle ilişkili çevresel etkilerin de dikkate alınması gerekiyor; bu, sürdürülebilirlik açısından önemli bir unsur olabilir
  • Meta'nın bu duyurusu, AI teknolojisinin geleceğine dair ilgi çekici bir bakış sunuyor ve AI'ın ilerlemesinin toplum ve sektör üzerindeki etkileri hakkında daha derin düşünmek için bir fırsat veriyor

1 yorum

 
GN⁺ 2024-03-13
Hacker News görüşleri
  • float8'ten bahsedilmesi ve FLOPs artışı

    • float8'ten bahsedilmiş ve bunun sonucunda FLOPs 2 kat artmış.
    • xformers artık 2:4 seyreklik destekliyor; bu da FLOPs'un ek olarak 2 kat artabileceği anlamına geliyor.
    • Llama3, MLP'de float8 ve 2:4 seyreklik kullanarak H100 float16 FLOPs'unun 4 katını da kullanabilir.
    • PyTorch, fp8'i deneysel olarak destekliyor; ancak kesinlik sorunları nedeniyle attention'ı float8'de çalıştırmak hâlâ karmaşık.
    • Muhtemelen attention float16 ile, RoPE/layernorms float16/float32 ile, diğer her şey ise float8 ile işlenebilir.
  • Dot-com dönemi ile yapay zeka döneminin karşılaştırılması

    • Dot-com dönemini yaşamış biri, model eğitimi için gereken devasa sermaye maliyeti nedeniyle yapay zeka çağında biraz hayal kırıklığı yaşıyor.
    • Dot-com döneminin başlarında, görece düşük altyapı maliyetleriyle herkes bir e-ticaret sitesi başlatabiliyordu.
    • Şu anda ise yalnızca Meta, Google, Microsoft ve OpenAI gibi büyük şirketlerin yapay zeka modelleri inşa edebildiği görülüyor.
  • Hesaplama gücü ile mühendislik zamanı arasındaki ilişki

    • Facebook hesaplama gücünü 10 kat artırabilse tüm stack'i yeniden tasarlaması gerekip gerekmeyeceği, peki ya 100 kat olursa ne olacağı merak ediliyor.
    • Her yeniden tasarımın basit bir değişiklik mi yoksa çok daha karmaşık bir iş mi olduğu sorgulanıyor.
    • Kümenin iç yapısına dair teknik anlayış yüzeysel seviyede olduğundan, bu konuda deneyimi olan birinin görüşü merak ediliyor.
  • Pipeline optimizasyon çalışmalarına ilgi

    • Pipeline optimizasyon çalışmalarına katılmak isteyen birinin buna nasıl başlaması gerektiği soruluyor.
    • Bunun, gerektiğinde sistem seviyesine inen C/C++ ve altyapı bilgisine sahip bir makine öğrenimi bilim insanının işi mi, yoksa yukarı çıkıp makine öğrenimi tarafında çalışan bir CUDA/SIMD uzmanının işi mi olduğu merak ediliyor.
  • Meta'nın mühendislik yetkinliği

    • Meta, olumsuz baskılara rağmen mühendislikte güçlü sonuçlar ortaya koyuyor.
    • Meta'nın bu mühendislik yetkinliğini nasıl gelirleştirmeyi planladığı sorgulanıyor.
  • Mühendislik ve altyapıya tarihsel bakış

    • DLRM makalesine ve Facebook'un ilk ayrıştırılmış rack ve SDN çalışmalarına değiniliyor.
    • Daha 2018'de bile SSD ve DRAM'i rack'in farklı yerlerine koyarken, büyük sinir ağlarıyla öneri sistemleri ve sıralama yapılıyordu.
    • Tıklama tahmin modelinden ve Intel AVX-2 kullanan HOGWILD eğitim yönteminden söz ediliyor ve buna şaşırılıyor.
    • Meta'nın altyapı tasarımı ve SKU tasarımı konusunda hâlâ en üst düzey yetkinliğe sahip olduğu vurgulanıyor.
  • Meta'nın yapay zeka iş yüklerinde rekabet etme ihtimali

    • Meta'nın AWS, MSFT ve GOOG ile yapay zeka iş yükleri alanında rekabet etme ihtimali merak ediliyor.
  • H100 GPU'ların maliyeti

    • Meta'nın H100 GPU'lar için ne kadar ödediğine dair tahmin yapılıyor.
    • 350.000 adet NVIDIA H100'ün tanesi $10k'dan alınması durumunda toplam maliyetin $3.5b olacağı belirtiliyor.
  • Meta'nın yapay zeka yeniliklerine açık yaklaşımı

    • Meta'nın yapay zeka inovasyonuna karşı açık bir tutum sergilediği görülüyor.
  • Meta'nın uzun vadeli vizyonu ve AGI

    • Meta'nın uzun vadeli vizyonunun yapay genel zeka (AGI) inşa etmek olduğu belirtiliyor.