- Meta, yapay zekanın geleceğine yönelik büyük yatırımının bir parçası olarak 24.576 GPU'luk iki küme duyurdu
- Donanım, ağ, depolama, tasarım, performans ve yazılıma ilişkin ayrıntıları paylaştı
- Bu küme tasarımı Llama 3 eğitimi için kullanıldı
- Meta, açık bilgi işlem ve açık kaynağa bağlı
- Bu kümeleri Grand Teton, OpenRack ve PyTorch temelinde inşa ediyor ve sektör genelinde açık inovasyonu sürdürmeye devam ediyor
- Bu duyuru, iddialı altyapı yol haritasının bir adımı
- 2024 sonuna kadar, neredeyse 600.000 H100'e eşdeğer hesaplama gücüne sahip portföyün bir parçası olarak 350.000 NVIDIA H100 GPU içeren altyapıyı büyütmeyi hedefliyor
Meta'nın büyük ölçekli AI kümelerine dair içgörüler
- Meta'nın uzun vadeli vizyonu, herkesin faydalanabilmesi için açık ve sorumlu biçimde inşa edilmiş yapay genel zeka (AGI) oluşturmak
- AGI'ye doğru ilerleme, yeni ürünler, uygulamalarda yeni AI özellikleri ve yeni AI odaklı bilgi işlem cihazları ortaya çıkarıyor
- Meta'nın AI altyapısı kurma konusunda uzun bir geçmişi var ve 2022'de 16.000 NVIDIA A100 GPU içeren AI Research SuperCluster (RSC) hakkında ayrıntıları ilk kez paylaşmıştı
İç yapı
- Yeni AI kümesi, RSC'den elde edilen başarılar ve dersler üzerine inşa edildi
- Araştırmacı ve geliştirici deneyimi ile üretkenliğe odaklanarak, yüksek performanslı ağ yapısının verimliliği ve temel depolama kararları sayesinde daha büyük ve karmaşık modelleri destekliyor
Ağ
- Meta, günde onlarca trilyon AI model çalıştırmasını işliyor
- Büyük ölçekli hizmet sunmak için son derece gelişmiş ve esnek bir altyapı gerekiyor
- Meta, AI araştırmacılarının deneyimini optimize etmek ve veri merkezlerinin verimli çalışmasını sağlamak için kendi donanımını, yazılımını ve ağ yapısını özel olarak tasarlıyor
Hesaplama
- İki küme de Meta'nın şirket içinde tasarladığı açık GPU donanım platformu Grand Teton kullanılarak kuruldu
- Grand Teton, güç, kontrol, hesaplama ve fabric arayüzlerini tek bir kasada birleştirerek genel performansı, sinyal bütünlüğünü ve termal performansı iyileştiriyor
Depolama
- AI eğitiminde depolama kritik bir rol oynasa da en az bahsedilen yönlerden biri
- Meta'nın 'Tectonic' dağıtık depolama çözümünün bir sürümü flash medyaya optimize edildi
- Şirket içinde geliştirdiği FUSE(Linux Filesystem in Userspace) API aracılığıyla AI kümelerinin veri ve checkpoint gereksinimlerini karşılıyor
- Binlerce GPU, checkpoint'leri senkronize biçimde kaydedip yükleyebiliyor ve veri yükleme için gerekli esnek, yüksek verimli, eksabayt ölçekli depolamayı sağlıyor
- Hammerspace ile iş birliği yaparak paralel bir network file system (NFS) dağıtımını birlikte geliştirdi
Performans
- Büyük ölçekli AI kümeleri kurarken performans ve kullanım kolaylığını aynı anda en üst düzeye çıkarmak önemli bir ilke
- AI sistemlerinin sınırlarını zorlarken tasarımın ölçeklenme kabiliyetini test etmenin en iyi yolu, sistemi gerçekten kurmak, optimize etmek ve test etmek
- Meta, sistemi kurup optimize ederek ve gerçek testler yaparak tasarımın ölçeklenebilirliğini sınadı
- AI iş yüklerini destekleyen temel AI framework'ü PyTorch'u geliştirmeyi sürdürerek onlarca, hatta yüz binlerce GPU eğitimi için hazır hale getiriyor
Açık AI inovasyonuna bağlılık
- Meta, AI yazılımı ve donanımında açık inovasyona olan bağlılığını sürdürüyor
- OCP'nin kurucu üyelerinden biri olarak açık donanım inovasyonunu desteklemeye devam ediyor ve OCP topluluğuna Grand Teton ile Open Rack gibi tasarımlar sunuyor
- Ayrıca sektörün büyük bir bölümünü destekleyen AI yazılım framework'ü PyTorch'un en büyük ve başlıca katkı sağlayıcısı
- Açık kaynak donanım ve yazılım, büyük ölçekli sorunların çözümüne yardımcı olan önemli araçlar olarak görülüyor
Meta'nın AI altyapısının geleceği
- Bu iki AI eğitim kümesi tasarımı, yapay zekanın geleceğine yönelik daha büyük bir yol haritasının parçası
- Meta, 2024 sonuna kadar, 600.000 H100'e eşdeğer hesaplama gücüne sahip portföyün parçası olarak 350.000 NVIDIA H100 içeren altyapıyı büyütmeyi planlıyor
GN⁺ görüşü
- Meta'nın duyurduğu 24k GPU kümesi, özellikle büyük ölçekli AI model eğitimi için gerekli güçlü hesaplama kaynaklarını sağlayarak AI araştırma ve geliştirmesinde önemli bir ilerlemeyi ifade ediyor
- Bu tür bir altyapı, AI modellerinin karmaşıklığı ve boyutu artmayı sürdürdükçe araştırmacıların daha yenilikçi AI çözümleri geliştirmesi için zemin hazırlıyor
- Meta'nın açık kaynak ve açık bilgi işleme bağlılığı, sektör genelinde inovasyonu teşvik edebilir ve diğer kuruluşların bu teknolojilerden yararlanarak kendi AI çözümlerini geliştirmesine yardımcı olabilir
- Ancak bu kadar büyük kümelerde devasa enerji tüketimiyle ilişkili çevresel etkilerin de dikkate alınması gerekiyor; bu, sürdürülebilirlik açısından önemli bir unsur olabilir
- Meta'nın bu duyurusu, AI teknolojisinin geleceğine dair ilgi çekici bir bakış sunuyor ve AI'ın ilerlemesinin toplum ve sektör üzerindeki etkileri hakkında daha derin düşünmek için bir fırsat veriyor
1 yorum
Hacker News görüşleri
float8'ten bahsedilmesi ve FLOPs artışı
Dot-com dönemi ile yapay zeka döneminin karşılaştırılması
Hesaplama gücü ile mühendislik zamanı arasındaki ilişki
Pipeline optimizasyon çalışmalarına ilgi
Meta'nın mühendislik yetkinliği
Mühendislik ve altyapıya tarihsel bakış
Meta'nın yapay zeka iş yüklerinde rekabet etme ihtimali
H100 GPU'ların maliyeti
Meta'nın yapay zeka yeniliklerine açık yaklaşımı
Meta'nın uzun vadeli vizyonu ve AGI