6 puan yazan GN⁺ 2024-10-18 | 1 yorum | WhatsApp'ta paylaş

Meta, Open Compute Project (OCP) Global Summit 2024'te en yeni yapay zeka donanım tasarımlarını tanıttı

  • Yeni yapay zeka platformu, son teknoloji açık raf tasarımı, gelişmiş ağ fabric'i ve bileşenler gibi yenilikçi teknolojiler sergilendi
  • Tasarımları paylaşarak iş birliğini teşvik etmeyi ve inovasyonu hızlandırmayı amaçlıyor

Meta'nın yapay zeka modelleme inovasyonu ve altyapı ilerlemeleri

  • Meta, yıllardır yapay zeka modelleme inovasyonu sayesinde feed ve reklam sistemleri gibi özellikleri optimize edip geliştiriyor
  • Yeni ve daha gelişmiş yapay zeka modelleri geliştirip kullanıma sundukça, yeni yapay zeka iş yüklerini destekleyecek altyapı gelişimine de odaklanıyor
  • Örneğin, Llama 3.1 405B modelini eğitmek için tüm eğitim yığınında önemli optimizasyonlar yaptı ve bunu 16.000'den fazla NVIDIA H100 GPU üzerinde çalıştırabilir hale getirdi
  • 2023 boyunca eğitim kümesini 1K'dan 16K GPU'ya hızla büyüttü ve şu anda modelleri 24K-GPU kümesinde eğitiyor
  • Yapay zeka eğitimi için gereken hesaplama miktarının gelecekte de ciddi biçimde artması bekleniyor

Yapay zeka kümesi kurmada ağ ve bant genişliğinin önemi

  • GPU'ların yanı sıra ağ ve bant genişliği de küme performansını güvence altına almada kritik rol oynuyor
  • Meta'nın sistemi, HPC hesaplama sistemleri ile GPU'ları ve alana özel hızlandırıcıları birbirine bağlayan yüksek bant genişlikli bir hesaplama ağından oluşuyor
  • İleriye dönük olarak hızlandırıcı başına saniyede terabayt seviyesinde enjeksiyon bant genişliği artışı bekleniyor; bu da günümüz ağlarına kıyasla 10 katı aşan bir büyümeye işaret ediyor
  • Bunu desteklemek için yüksek performanslı, çok katmanlı, non-blocking bir ağ fabric'i gerekiyor; bu da yapay zeka kümelerinin potansiyelinden tam anlamıyla yararlanmayı mümkün kılıyor

Açık donanımla yapay zeka ölçeklenebilirliği sağlamak

  • Yapay zekayı bu hızda ölçeklemek için açık donanım çözümlerine ihtiyaç var
  • Açıklık ilkelerine dayanan yeni mimariler, ağ fabric'leri ve sistem tasarımları geliştirmek en verimli ve en etkili yaklaşım
  • Açık donanıma yatırım yaparak yapay zekanın potansiyelini en üst düzeye çıkarabilir ve alandaki sürekli inovasyonu ilerletebiliriz

Yapay zeka altyapısı için açık mimari "Catalina" tanıtıldı

  • Meta, yapay zeka iş yüklerine yönelik yüksek performanslı rack olan Catalina'nın yaklaşan lansmanını OCP topluluğuna duyurdu
  • Catalina, NVIDIA Blackwell platformunun tüm rack ölçekli çözümünü temel alıyor ve modülerlik ile esnekliğe odaklanıyor
  • En yeni NVIDIA GB200 Grace Blackwell superchip'i destekleyecek şekilde tasarlandı ve modern yapay zeka altyapısının büyüyen ihtiyaçlarını karşılıyor
  • GPU'ların artan güç gereksinimleri nedeniyle açık rack çözümlerinin daha yüksek güç kapasitesini desteklemesi gerekiyor
  • Catalina ile birlikte 140kW'a kadar destekleyebilen Orv3 yüksek güçlü rack (HPR) tanıtılıyor
  • Çözüm tamamen sıvı soğutmalı ve çeşitli bileşenlerden oluşuyor
  • Catalina'nın modüler tasarımı, rack'in belirli yapay zeka iş yüklerine göre özelleştirilmesine olanak tanıyor

Grand Teton platformuna AMD hızlandırıcı desteği

  • Grand Teton, Meta'nın yeni nesil yapay zeka platformu olup hem bellek bant genişliğine bağlı iş yüklerinin hem de hesaplama ağırlıklı iş yüklerinin gereksinimlerini karşılayacak şekilde tasarlandı
  • Grand Teton platformu artık AMD Instinct MI300X desteğiyle genişletildi ve Meta bu yeni sürümü OCP'ye bağışlamayı planlıyor
  • Grand Teton, önceki sürümlerde olduğu gibi güç, kontrol, hesaplama ve fabric arayüzlerinin tamamen entegre edildiği tek parça bir sistem tasarımına sahip
  • AMD Instinct MI300x dahil çeşitli hızlandırıcı tasarımlarını desteklemenin yanı sıra daha büyük hesaplama kapasitesi, genişletilmiş bellek ve artırılmış ağ bant genişliği sunuyor

Açık ayrıştırılmış zamanlanmış fabric (DSF, Disaggregated Scheduled Fabric)

  • Yapay zeka eğitim kümelerinin performansını artırmayı sürdürmek için açık ve üretici bağımsız bir ağ backend'i geliştirmek kritik rol oynayacak
  • Ağı ayrıştırmak, sektör genelindeki tedarikçilerle iş birliği yaparak yenilikçi, ölçeklenebilir, esnek ve verimli sistemler tasarlamayı mümkün kılıyor
  • Meta'nın yeni nesil yapay zeka kümeleri için geliştirdiği yeni DSF, mevcut switch'lere kıyasla çeşitli avantajlar sunuyor
  • DSF, açık OCP-SAI standardı ve Meta'nın kendi ağ işletim sistemi olan FBOSS tarafından destekleniyor
  • NVIDIA, Broadcom ve AMD dahil çeşitli tedarikçilerin GPU ve NIC'leri genelinde, endpoint'ler ve hızlandırıcılar için açık ve standart Ethernet tabanlı RoCE arayüzlerini destekliyor
  • DSF'ye ek olarak Meta, Broadcom ve Cisco ASIC'lerine dayanan yeni bir 51T fabric switch geliştirdi ve devreye aldı; ayrıca içinde Meta'nın ilk kendi tasarımı ağ ASIC'ini barındıran FBNIC adlı yeni bir NIC modülünü de paylaşıyor

Meta ve Microsoft'un açık inovasyonu ilerletmeye yönelik iş birliği

  • Meta ile Microsoft, OCP içinde uzun süredir ortaklık yürütüyor; bu iş birliği 2018'de veri merkezleri için Switch Abstraction Interface (SAI) geliştirilmesiyle başladı
  • Open Accelerator Module (OAM) standardı ve SSD standardizasyonu gibi önemli girişimlere katkı sundular
  • Şu anda iki şirketin iş birliği, Mount Diablo adlı yeni ayrıştırılmış güç rack'ine odaklanıyor
  • Mount Diablo, verimlilik ve ölçeklenebilirliği artıran ölçeklenebilir 400VDC yapısıyla son teknoloji bir çözüm sunuyor ve yapay zeka altyapısını önemli ölçüde ileri taşıyor

Yapay zeka altyapısının açık geleceği

  • Meta, açık kaynak yapay zekaya bağlı olduğunu ve açık kaynağın yapay zekanın faydalarını ve fırsatlarını dünya genelindeki insanların eline ulaştıracağına inandığını söylüyor
  • İş birliği olmadan yapay zekanın potansiyelini gerçekleştirmesi mümkün olmayacak
  • Model inovasyonunu yönlendirmek, taşınabilirliği güvence altına almak ve yapay zeka geliştirmede şeffaflığı artırmak için açık yazılım çerçevelerine ihtiyaç var
  • Kolektif uzmanlıktan yararlanmak, yapay zekayı daha erişilebilir kılmak ve sistemlerdeki önyargıyı en aza indirmek için açık ve standartlaştırılmış modellere öncelik verilmesi gerekiyor
  • Yapay zekadaki ilerlemeyi desteklemek için yüksek performanslı, maliyet etkin ve uyarlanabilir altyapı sağlayacak açık yapay zeka donanım sistemlerine de ihtiyaç var
  • Yapay zeka donanım sistemlerinin gelecekteki gelişimine katkı sunmak isteyen herkesin OCP topluluğuna katılması teşvik ediliyor
  • Yapay zekanın altyapı gereksinimlerini birlikte çözerek herkes için açık yapay zekanın gerçek vaadini hayata geçirebiliriz

GN⁺ görüşü

  • Birden çok GPU ve NIC tedarikçisini kapsayan açık ağ teknolojileri sayesinde üretici bağımlılığı aşılabilir ve yapay zeka eğitim kümelerinin ölçeklenebilirliği ile esnekliği artırılabilir
  • Meta ile Microsoft arasındaki iş birliği, açık yapay zeka altyapısı inovasyonunu hızlandırmada önemli rol oynayabilir. İki şirketin OCP üzerinden uzun süredir kurduğu ortaklık sayesinde yeni standartlar ve çözümler geliştirme çabalarının ivme kazanması bekleniyor
  • Meta'nın açık kaynak yapay zekaya verdiği güçlü destek cesaret verici. Açık kaynak, yapay zekanın potansiyelini demokratikleştirmenin ve toplum genelinde yapay zeka fırsatlarını genişletmenin yolu
  • Açık yapay zeka altyapısı oluşturulurken şeffaflık, açıklanabilirlik ve etik değerlendirmeler gibi konuların da birlikte ele alınması gerekecek. Teknolojik ilerleme kadar yapay zekaya yönelik toplumsal güvenin inşası da önemli
  • Yapay zeka donanımı ve yazılım ekosisteminin birlikte büyümesi için sektör genelindeki iş birliğinin yanı sıra akademi, politika yapıcılar ve diğer paydaşların katılımı da kritik önem taşıyor. OCP'nin bunun için temel bir platform haline gelmesi umuluyor

1 yorum

 
GN⁺ 2024-10-18
Hacker News görüşü
  • OpenAI ile Meta AI arasındaki rekabeti, macOS vs Windows ve iOS vs Android gibi platform rekabeti olarak gören bir görüş var

    • Meta'nın pazar payı elde etmek için platformu açık tutma eğiliminde olduğu gözlemleniyor
    • Meta kazanırsa platformu açık tutmaya devam edip etmeyeceği sorgulanıyor
  • Zuckerberg ve Facebook çok eleştiriliyor, ancak mühendislik ve açık kaynağa da büyük yatırım yapıyor

  • Meta'nın Llama 3.1 405B modelini eğitmek için 16.000'den fazla NVIDIA H100 GPU kullandığı, bunun da çok büyük bir yatırım anlamına geldiği belirtiliyor

    • Meta'nın hisselerinin, açık kaynak modelin yayımlanmasının ardından büyük ölçüde yükseldiğinden söz ediliyor
  • Meta'nın açık kaynak LLM'lerinin birçok kullanıcı için cazip olacağı yönünde bir görüş var

    • OpenAI ve Anthropic'in açık modeller hakkında konuşmaya başlayabileceği düşünülüyor
  • Meta, Microsoft ve OpenAI'nın NVIDIA ile rekabet etmek için açık çip tasarımları konusunda iş birliği yapıp yapmayacağı merak ediliyor

  • Meta'nın, füzyon santrali gibi enerji üretim tesislerinin yanına AI veri merkezleri kurabileceği belirtiliyor

    • Yann LeCun'un görüşüne atıfla, sürdürülebilir ve düşük maliyetli elektrik kullanmanın avantaj sağladığı açıklanıyor
  • Meta'nın OpenAI'nin ardından şimdi de NVIDIA'yı hedef alıp almadığı sorgulanıyor

  • "Open" kavramının artık bir meme haline geldiği belirtiliyor