Cerebras Inference üzerinde Llama 3.1 405B öne çıkanlar
- Saniyede 969 çıktı tokenı üretiyor - en iyi GPU sonucundan 12 kat daha hızlı
- İlk tokena kadar geçen süre 240 ms - çoğu API'den daha kısa
- 128K bağlam uzunluğu desteği - kaydedilmiş en yüksek performans
- 16 bit ağırlıklar - tam model doğruluğunu koruyor
- 2025'in 1. çeyreğinde genel kullanıma sunulması planlanıyor; fiyatlandırma giriş tokenlarında milyon başına 6 $, çıkış tokenlarında milyon başına 12 $
Anlık hızda frontier yapay zeka
- Cerebras bu yıl Llama 3.1 8B ve 70B'yi saniyede 2.000 tokenın üzerine çıkardı
- GPT-4o, Claude 3.5 Sonnet ve Llama 3.1 405B gibi frontier modeller GPU, ASIC ve bulutta daha önce hiç saniyede 200 tokenı aşmamıştı
- Cerebras Inference bu sorunu çözerek Llama 3.1 405B'nin 128K bağlamda tam performans göstermesini sağlıyor
- 1.000 tokenlık promptta saniyede 969 çıktı tokenı üreterek rekor kırıyor
- 100.000 tokenlık giriş promptunda 539 token/sn'ye ulaşıyor; bu Fireworks'ten 11 kat, AWS'den 44 kat daha hızlı
En iyi gecikme süresi
- İlk tokena kadar geçen süre, gerçek uygulamalarda en önemli göstergelerden biri
- Cerebras, 240 milisaniye ile Llama 3.1-405B'yi çalıştıran tüm platformlar arasında en hızlı ilk token süresini sunuyor
- GPU tabanlı çözümlere göre çok daha hızlı yanıt süresiyle kullanıcı deneyimini önemli ölçüde iyileştiriyor
Kullanılabilirlik
- Llama 3.1-405B için Cerebras Inference şu anda müşteri denemelerinde ve 2025'in 1. çeyreğinde genel kullanıma sunulması planlanıyor
- Çıkış fiyatı AWS, Azure ve GCP'den %20 daha ucuz
Açık model en hızlı model
- Meta'nın açık yaklaşımı ve Cerebras'ın yenilikçi çıkarım teknolojisi sayesinde Llama 3.1-405B, kapalı frontier modellere göre 10 kattan fazla daha hızlı çalışıyor
- Ses, video ve çıkarım uygulamaları için uygun bir temel sağlıyor
1 yorum
Hacker News görüşleri
8x H100 kümesinde Llama 3.1 70b modelini çalıştırırken 100 tok/s hızını aşmak zor
gecikme karşılaştırmasının adil olduğundan emin değilim
yüksek throughput'u iyi gecikme süreleriyle sunmak için aşırı kaynak ayırma gerekir
mevcut nesil modellerle birlikte RAG, çoklu ajan ve code interpreter kullanıldığında model gecikmesi darboğaz haline geliyor
Cerebras çipi tüm wafer'ı kullanıyor ve yalnızca 44GB SRAM içeriyor
API'yi denemek için bir bekleme listesi var
Nvidia'nın Cerebras'ı satın alma olasılığının yüksek olduğunu düşünüyorum
yeni donanımla performans artışı sağlanabilmesi etkileyici
token/saniye/watt karşılaştırmasını görmek isterdim
rakip Groq'tan hiç bahsedilmiyor
bu gecikme süreleriyle hizmet sunmanın maliyetinin ne olduğunu merak ediyorum