3 puan yazan GN⁺ 2024-11-20 | 1 yorum | WhatsApp'ta paylaş

Cerebras Inference üzerinde Llama 3.1 405B öne çıkanlar

  • Saniyede 969 çıktı tokenı üretiyor - en iyi GPU sonucundan 12 kat daha hızlı
  • İlk tokena kadar geçen süre 240 ms - çoğu API'den daha kısa
  • 128K bağlam uzunluğu desteği - kaydedilmiş en yüksek performans
  • 16 bit ağırlıklar - tam model doğruluğunu koruyor
  • 2025'in 1. çeyreğinde genel kullanıma sunulması planlanıyor; fiyatlandırma giriş tokenlarında milyon başına 6 $, çıkış tokenlarında milyon başına 12 $

Anlık hızda frontier yapay zeka

  • Cerebras bu yıl Llama 3.1 8B ve 70B'yi saniyede 2.000 tokenın üzerine çıkardı
  • GPT-4o, Claude 3.5 Sonnet ve Llama 3.1 405B gibi frontier modeller GPU, ASIC ve bulutta daha önce hiç saniyede 200 tokenı aşmamıştı
  • Cerebras Inference bu sorunu çözerek Llama 3.1 405B'nin 128K bağlamda tam performans göstermesini sağlıyor
  • 1.000 tokenlık promptta saniyede 969 çıktı tokenı üreterek rekor kırıyor
  • 100.000 tokenlık giriş promptunda 539 token/sn'ye ulaşıyor; bu Fireworks'ten 11 kat, AWS'den 44 kat daha hızlı

En iyi gecikme süresi

  • İlk tokena kadar geçen süre, gerçek uygulamalarda en önemli göstergelerden biri
  • Cerebras, 240 milisaniye ile Llama 3.1-405B'yi çalıştıran tüm platformlar arasında en hızlı ilk token süresini sunuyor
  • GPU tabanlı çözümlere göre çok daha hızlı yanıt süresiyle kullanıcı deneyimini önemli ölçüde iyileştiriyor

Kullanılabilirlik

  • Llama 3.1-405B için Cerebras Inference şu anda müşteri denemelerinde ve 2025'in 1. çeyreğinde genel kullanıma sunulması planlanıyor
  • Çıkış fiyatı AWS, Azure ve GCP'den %20 daha ucuz

Açık model en hızlı model

  • Meta'nın açık yaklaşımı ve Cerebras'ın yenilikçi çıkarım teknolojisi sayesinde Llama 3.1-405B, kapalı frontier modellere göre 10 kattan fazla daha hızlı çalışıyor
  • Ses, video ve çıkarım uygulamaları için uygun bir temel sağlıyor

1 yorum

 
GN⁺ 2024-11-20
Hacker News görüşleri
  • 8x H100 kümesinde Llama 3.1 70b modelini çalıştırırken 100 tok/s hızını aşmak zor

    • bu hıza nasıl ulaştıklarını merak ediyorum
    • çok düğümlü çıkarım veya seyrek attention mekanizması gerekiyor gibi görünüyor
  • gecikme karşılaştırmasının adil olduğundan emin değilim

    • gecikmeye bağlam/prompt işleme süresi, donanım erişim bekleme süresi ve diğer API ek yükleri dahildir
    • Cerebras'ın verdiği sayılarda neredeyse hiç bekleme süresi hesaba katılmamış olabilir
  • yüksek throughput'u iyi gecikme süreleriyle sunmak için aşırı kaynak ayırma gerekir

    • gecikmenin model yüklemeyi içerip içermediği belirsiz
    • batch işlerinde Cerebras makinesini %100 kullanarak sürekli 1k tokens/s elde etmek mümkün olabilir
  • mevcut nesil modellerle birlikte RAG, çoklu ajan ve code interpreter kullanıldığında model gecikmesi darboğaz haline geliyor

    • 405B sınıfı bir modelin token throughput'u ile çok sayıda etkileşimli deneyim mümkün hale geliyor
  • Cerebras çipi tüm wafer'ı kullanıyor ve yalnızca 44GB SRAM içeriyor

    • 405B modeli bf16 hassasiyetinde sığdırmak için 19 çip gerekiyor
    • wafer üretim maliyeti açısından bu, 1500'den fazla H100 kullanmaya eşdeğer
  • API'yi denemek için bir bekleme listesi var

    • hizmet satın alınamıyorken şirketin iddialarına karşı şüpheci olmak gerekir
  • Nvidia'nın Cerebras'ı satın alma olasılığının yüksek olduğunu düşünüyorum

  • yeni donanımla performans artışı sağlanabilmesi etkileyici

    • donanım üzerinden eğitim performansını iyileştirmenin sınırlarının ne olduğunu merak ediyorum
  • token/saniye/watt karşılaştırmasını görmek isterdim

  • rakip Groq'tan hiç bahsedilmiyor

  • bu gecikme süreleriyle hizmet sunmanın maliyetinin ne olduğunu merak ediyorum

    • maliyet, bunun ne kadar yaygın benimsenebileceğini belirler
    • bunun gerçekten yalnızca düşük gecikmeye ihtiyaç duyan işletmelere mi yönelik olduğu, yoksa genel olarak dağıtılıp dağıtılamayacağı merak konusu