Cerebras Inference, Llama 3.1 405B’de saniyede 969 token işledi

(cerebras.ai)

3 puan yazan GN⁺ 2024-11-20 | 1 yorum | WhatsApp'ta paylaş

Büyük frontier modellerde genellikle hız ve gecikme süresi darboğaz olurken, Cerebras Inference Llama 3.1 405B müşteri iş yüklerinde saniyede 969 çıktı token’ı kaydetti
1.000 token’lık prompt bazında SambaNova’dan 8 kat, en hızlı GPU bulutundan 12 kat, AWS’den 75 kat daha hızlı sonuç elde edildi
100.000 token girişte yalnızca 6 tedarikçi sonuç döndürdü; Cerebras ise benchmark’ı tamamlayan GPU dışı tek tedarikçi olarak saniyede 539 token’a ulaştı
İlk token’a kadar geçen süre 240 ms oldu; GPT-4’ten geçiş yapan müşteriler toplam gecikme süresinin %75 azaldığını bildirdi
Llama 3.1 405B için Cerebras Inference şu anda müşteri deneme sürümü olarak sunuluyor; 2025’in 1. çeyreğinde genel kullanıma açılması ve giriş için $6/M·çıkış için $12/M token fiyatlandırması planlanıyor

Llama 3.1 405B performans rekoru

Cerebras Inference, Llama 3.1 405B çalıştırırken 969 output tokens/s değerine ulaştı
- Bu, 1.000 token’lık prompt bazındaki sonuçtur
- Artificial Analysis ölçümlerine göre çıktı hızı, uzun bağlam performansı ve ilk token süresinde rekor kırdı
Aynı karşılaştırmada Cerebras üzerindeki Llama 3.1 405B’nin GPT-4o’dan 12 kat, Claude 3.5 Sonnet’ten 18 kat daha hızlı olduğu belirtildi
Cerebras, bu yıl Llama 3.1 8B ve 70B’yi 2.000 tokens/s’nin üzerine çıkardığını; GPT-4o, Claude 3.5 Sonnet ve Llama 3.1 405B gibi frontier modellerin ise GPU, ASIC veya bulut fark etmeksizin hiçbir yerde 200 tokens/s’yi aşamadığını açıkladı
1.000 token’lık prompt bazındaki karşılaştırma şöyle:
- SambaNova’dan 8 kat daha hızlı
- En hızlı GPU bulutundan 12 kat daha hızlı
- AWS’den 75 kat daha hızlı
100.000 token’lık giriş prompt’unda 539 tokens/s kaydetti
- Yalnızca 6 tedarikçi sonuç döndürdü
- Cerebras, benchmark’ı tamamlayan GPU dışı tek tedarikçiydi
- Fireworks’ten 11 kat, AWS’den 44 kat daha hızlı

Gecikme süresi, sunum takvimi ve fiyatlandırma

Llama 3.1 405B için Cerebras Inference 240 ms ilk token süresi kaydetti
- İlk token süresi, gerçek uygulamalarda kullanıcının hissettiği temel gecikme metriğidir
- GPU tabanlı çözümlerde ilk yanıt süresi birkaç saniyeye kadar uzayabilir
GPT-4’ten Cerebras Inference’a geçen müşteriler toplam gecikme süresinin %75 azaldığını bildirdi
- Ses ve video yapay zeka uygulamaları gibi gerçek zamanlı etkileşimin önemli olduğu kullanım senaryolarında kullanıcı deneyiminin iyileşmesini sağlar
Llama 3.1 405B için Cerebras Inference şu anda müşteri deneme sürümü olarak sunuluyor
- Genel kullanıma açılış 2025’in 1. çeyreği için planlanıyor
- Fiyatlandırma, 1 milyon giriş token’ı başına $6 ve 1 milyon çıkış token’ı başına $12
- Çıkış fiyatı AWS, Azure ve GCP’den %20 daha düşük
Meta’nın açık yaklaşımı ile Cerebras’ın inference teknolojisinin birleşimi sayesinde Llama 3.1 405B’nin kapalı frontier modellere kıyasla 10 kattan fazla hızlı çalıştığı açıklanıyor
- Düşük gecikme süresi ve çok sayıda inference adımının önemli olduğu ses, video ve akıl yürütme uygulamaları için uygun bir temel olarak tanıtılıyor

1 yorum

GN⁺ 2024-11-20

Hacker News görüşleri

Gerçekten şaşırtıcı derecede hızlı. 8x H100 kümesinde kendi kurduğum Llama 3.1 70B bile 100 token/sn'yi aşmakta zorlanırken, bunu nasıl yaptıklarını merak ediyorum
Tahmini decoding veya FlashAttention gibi tipik tekniklerle bunun yanına bile yaklaşılamaz gibi duruyor; en azından çok düğümlü çıkarım ya da seyrek attention gibi şeyler gerekiyor olmalı
- Cerebras yaklaşık 1 milyon çekirdekli bir CPU yapıyor ve çıkarımı GPU'da değil onun üzerinde çalıştırıyor. Tamamen farklı bir mimari olduğu için araya ağ girmiyor
  Ayrıca HBM yerine önemli bir kısmı CPU cache tarafında işliyor olmaları da mümkün. Çip tasarımını anlamak için TechTechPotato'nun Cerebras hakkındaki YouTube videolarını tavsiye ederim
- Bunu 8x H100'den kat kat daha büyük alana sahip özel silikon ile yapıyorlar. Elbette yürütme/runtime optimizasyonları da vardır ama asıl fark muhtemelen ezici transistor sayısıdır
  https://cerebras.ai/product-chip/
- Çip tabak büyüklüğünde. Fotoğraflara bakınca daha iyi anlaşılıyor: https://cerebras.ai/product-chip/
- Cerebras bir çip şirketi ve GPU kullanmıyor. Bu çip wafer-scale integration kullanıyor; yani fiziksel olarak tüm bir wafer boyutunda ve onlarca GPU'nun tek parçada birleşmiş hali gibi
  Çip üstü bellek sınırlı ve tamamen SRAM'den oluşuyor; wafer başına HBM bant genişliğinin ne kadarına denk geldiği ise net değil. GPU kümesinde çalıştırmaktan tamamen farklı bir optimizasyon problemi
- Büyük sırrın iki parçası var. Çip inanılmaz büyük ve bellek olarak SRAM kullanıyor; bu da GPU'lardaki HBM'den çok daha hızlı
  Aslında bu kadar hızlı olmasının ana nedeni bu. Groq da aynı nedenle hızlı
Burada gecikmeyi gerçekten aynı koşullarda mı kıyaslıyorlar emin değilim. Gecikme kabaca üç parçaya ayrılır: bağlam/prompt işleme hızı, donanıma erişim beklerken geçen kuyruk süresi, ve ağ gibi genel API ek yükleri
Karşılaştırılan hizmetlerin çoğunun, belki de hepsinin, rezerve kapasite tabanlı olmadığını anlıyorum; dolayısıyla ölçüme kuyruk süresi de dahil oluyor. LLM'lerde bu süre oldukça büyük olabilir. Buna karşılık Cerebras rakamları muhtemelen garanti edilmiş donanım erişimiyle alınmıştır; yani sonsuza dek uzayabilen kuyruk süresi neredeyse hiç yoktur
Salt throughput etkileyici ama bunu son kullanıcıya düşük gecikmeyle sunmak için aşırı kapasite ayırmak gerekir ve kuyruğun bunu nasıl etkileyeceği belirsiz. Ayrıca bunun modelin zaten yüklü olduğu bir makine için mi geçerli olduğunu, yoksa gerektiğinde model yükleme süresini de içerip içermediğini merak ediyorum. Fine-tuned modeller kullanıldığında gecikmenin değişip değişmediğine de bakmak gerekir
Cerebras makinesini %100 kullanıp sürekli 1.000 token/sn alabilen batch işleri içinse kesinlikle avantajlı görünüyor
- Her şeyin ideal koşullarda olduğunu varsaysak bile bu inanılmaz. Batch size 1 ile 405B parametreli bir modelin 1.000 token/sn vermesi akıl almaz derecede hızlı
Mevcut nesil modellerle RAG, çoklu ajanlar ve code interpreter da eklenince yapılabilecek şeylere bakarsak, artık duvar doğruluk değil model gecikmesi gibi duruyor
405B sınıfı bir modelde bu düzeyde token throughput elde edilirse mümkün hale gelecek çok fazla etkileşimli deneyim var
- Runbook'un arıza gidermeye nasıl yardımcı olduğunu pek anlamıyorum. Bana göre arızalar her seferinde yeni olmalı; çünkü kök nedeni düzeltiyoruz
  O yüzden her seferinde koda ya da yakın zamanda deploy edilen koda inmek ve operasyon metrikleriyle korelasyona bakmak gerekir. Yoksa burada runbook'tan kasıt sadece rollback prosedürü mü, merak ettim
Açık olmak gerekirse Cerebras'ın tek bir çipi, tüm wafer'ı kullanmasına rağmen üzerinde sadece 44GB SRAM barındırıyor. 405B modeli bf16 hassasiyetinde yüklemek için, KV cache ve aktivasyon belleği hariç bile, bu tür “çiplerden” 19 tane gerekiyor
Sequence length arttıkça KV cache yüzünden gereksinim daha da büyür. Bakınca bir wafer'a 60-80 kadar H100 çipi sığabildiği söyleniyor; yani wafer üretim maliyeti açısından bu, 1.500'den fazla H100 kullanmaya benziyor
- Bu şirketlerin bu teknolojiye harcadığı bütçeler gerçekten hayal sınırlarını aşıyor
- Wafer maliyetinin gerçek çip fiyatının büyük bir kısmını oluşturup oluşturmadığını merak ediyorum
Gerçekten etkileyici performans. Nvidia'nın Cerebras'ı satın almaya çalışması bence oldukça olası
- Cerebras IPO'yu değerlendiriyor. Satın alma ihtimali düşük görünüyor. Yine de satın alınacaksa Facebook ya da MS için daha değerli olabilir gibi
API'yi denemek için bekleme listesine yazılmak gerekiyor. Şirket böyle iddialarda bulunup da hizmeti satın alınabilir biçimde sunmuyorsa, buna bir miktar şüpheyle yaklaşmak gerekir
Yapay zeka çip girişimleri arasında Cerebras galiba gerçekten iş yapanlardan biri
- Groq da gerçek. Ama Cerebras şimdiye kadar Groq kadar geniş ölçeklenebilmiş görünmüyor. Zaman gösterecek
- Zamanlama tam da IPO'ya uygun olmuş
Doğrudan rakip olan Groq'tan hiç bahsedilmiyor mu?
- Ücretli bir Groq müşterisi olarak memnunum ama 405B alanında Cerebras'la rekabet edemiyor
  Groq'nun avantajı, enterprise altı ücretli müşterileri de kabul etmesi ve Cerebras kadar seçici davranmadan çok çeşitli modelleri geniş biçimde sunması. Ama saf hız ve en büyük model sınıfında Groq'yu kıyaslamak zor
- Sambanova da pek sık anılmıyor [0]. Kurucu ortaklardan biri “çok çekirdekli işlemcinin babası” olarak biliniyor [1]
  [0]: https://sambanova.ai/
  [1]: https://en.wikipedia.org/wiki/Kunle_Olukotun
Bu gecikmelerle hizmet vermenin maliyeti ne olur merak ediyorum. Müşteri açısından sabit maliyet fiyatlandırma stratejisine göre değişir ama sonuçta bu teknolojinin yayılma alanını belirleyecek şey maliyet
Bunun yalnızca gecikmenin gerçekten kritik olduğu işler için mi uygun olduğu, yoksa genel olarak dağıtılabilecek bir seviye mi olduğu önemli
- Herkesin devasa çipler yapıp SRAM kullanması standart hale gelebilir mi?
  SRAM üreticisi ne kadar çok? Yoksa bunun mutlaka çipin içine tamamen entegre edilmesi gereken bir yapı mı olması lazım?
Eğer yeni donanımla böyle performans artışları mümkünse, eğitim performansının da donanımla ne kadar daha ileri taşınabileceğini merak ediyorum
- Makine öğrenmesi tarafında büyük bir değişim olmazsa bunun çok büyük olmayacağını düşünüyorum. Burada iki eksen var: verimlilik artışı ve hesaplama miktarı artışı
  Hesaplamayı artırmak hızı yükseltmenin en açık yolu ama belirli bir process node ve veri tipi hassasiyetinde fiziksel sınırlara epey yaklaşılmış gibi görünüyor. Bunu kesin kanıtlamak zor ama birkaç dayanak var. LLM'lerin temel işlemi olan matris çarpımı, CPU işlerinden farklı olarak çok basit; kontrol akışı mantığı gibi kısımlar büyük ölçüde azaltılmış durumda. Gücün çoğu zaten matris çarpımının kendisine gidiyor ve matris çarpımı da gerçekten güç kısıtlı [1]. Hassasiyeti değiştirmenin getirisi olabilir ama zor; üstelik fp8 gibi zaten çok düşük hassasiyetler kullanılıyor ve fp8, 17'yi bile temsil edemiyor. Son araştırmalar da sınırları gösteriyor
  LLM eğitim verimliliği “model FLOPS utilization (MFU)” gibi çok acımasız bir ölçütle ölçülüyor. Bu, donanımın teorik olarak sağlayabildiği FLOPS'un, matematik işlemlerini uygulamak için gereken teorik FLOPS'a bölünmesi demek. Sadece FSDP ile bile %30 kolayca görülebiliyor; %50-60 da imkansız ya da benzeri görülmemiş düzeyler değil. Verimsizlik başlıca iki yerden geliyor: 1) donanım çeşitli nedenlerle etiketindeki FLOPS'u pratikte veremiyor, 2) on binlerce makine arasında terabaytlarca veriyi senkronize etmek gerekiyor. Teorik sınır 2x ama pratikte sıkılacak fazla pay kalmamış gibi
  Bundan sonraki kazanımlar büyük ölçüde Nvidia marjını düşüren TPU'lara, process node iyileştirmelerine, B100 gibi veri tipi küçültmelerine veya pahalı çipler arası iletişimi azaltmak için çip boyutunu büyütmeye odaklanacak. Aynı hassasiyet ve aynı process node üzerinde 10x iyileşme alanı varmış gibi görünmüyor
  [1]: https://www.thonking.ai/p/strangely-matrix-multiplications
- Nihai çözüm muhtemelen LLM'leri saf ASIC'lere dönüştürmek olur
  Performans muhtemelen 10 kat artar ama bu da son derece pahalı bir çözüm olur

Cerebras Inference, Llama 3.1 405B’de saniyede 969 token işledi

Llama 3.1 405B performans rekoru

Gecikme süresi, sunum takvimi ve fiyatlandırma

İlgili okumalar

1 yorum

Hacker News görüşleri