- Cerebras, Qwen3-235B yapay zeka modelini tanıtarak saniyede 1.500 token üretimiyle anlık çıkarım performansı sunuyor
- Mevcut kapalı modellere kıyasla 1/10 maliyetle 30 kat daha hızlı üretkenlik ve kod üretimi sağlıyor
- 131K bağlam desteğiyle büyük ölçekli kod tabanları ve karmaşık belge işleme mümkün hale geliyor
- Cline ile iş birliği yaparak Microsoft VS Code içinde gerçek zamanlı kod üretimi deneyimini genişletiyor
- Bu lansmanla açık kaynak temelli, yüksek performanslı ve makul maliyetli bir OpenAI, Anthropic alternatifi sunuluyor
Qwen3-235B: Cerebras’ın ultra hızlı yapay zeka çıkarım modeli lansmanı ve öne çıkan sonuçları
Dünyanın en hızlı yapay zeka çıkarım modeli, Cerebras Inference Cloud’da tanıtıldı
- Cerebras Systems, 8 Temmuz 2025’te Qwen3-235B’yi resmen piyasaya sürerek 131K bağlama kadar tam destek sunan yeni bir yapay zeka çıkarım modelini duyurdu
- Bu model, kapalı alternatiflere kıyasla 1/10 seviyesinde maliyetle frontier düzeyinde yapay zeka yetenekleri ile ultra hızlı çıkarım performansını birleştirerek kurumsal yapay zeka benimseniminde dönüşüm vadediyor
Frontier model düzeyinde zeka
- Alibaba’nın Qwen3-235B modeli, Claude 4 Sonnet, Gemini 2.5 Flash ve DeepSeek R1 gibi son teknoloji rakip modellerle denk düzeyde bilim, kod ve genel bilgi benchmark performansı sunduğunu Artificial Analysis bağımsız değerlendirmesiyle kanıtladı
- Mixture-of-Experts mimarisiyle hesaplama verimliliğini en üst düzeye çıkarırken, milyon giriş tokenı başına 0,60 dolar ve milyon çıkış tokenı başına 1,20 dolar fiyatla sunularak mevcut kapalı modellere kıyasla son derece düşük maliyetli kullanım sağlıyor
Çıkarım hızı: dakikalardan saniyelere dönüşüm
- Geleneksel çıkarım yapan yapay zeka sistemlerinde sıradan sorgular bile çoğu zaman birkaç dakika sürebiliyor
- Wafer Scale Engine kullanımı sayesinde Qwen3-235B, saniyede 1.500 token çıktı üreterek sorgu-yanıt süresini 1-2 dakikadan 0,6 saniyeye indiriyor
- Böylece kod üretimi, akıl yürütme ve büyük ölçekli RAG iş akışları anlık tepki verebilir hale geliyor ve gerçek zamanlı yapay zeka performansı için yeni bir standart oluşturuyor
- Artificial Analysis ölçümüne göre model, dünya çapında saniyede 1.000 tokenın üzerinde üretim yapan tek frontier yapay zeka modeli olarak değerlendiriliyor
131K bağlam: gerçek dünya kod üretimi desteği
- Qwen3-235B lansmanıyla birlikte Cerebras, mevcut 32K bağlamı 131K’ye çıkararak 4 kat genişletilmiş destek sunuyor
- Bu sayede büyük kod tabanları ve karmaşık belgeler tek seferde çıkarıma sokulabiliyor; onlarca dosya ve on binlerce satır üzerinde eşzamanlı kod üretimiyle üretim ortamına yönelik geliştirme olasılığı büyük ölçüde artıyor
- Mevcut 32K bağlamla yalnızca basit kod üretimi mümkünken, 131K bağlam büyük uygulama geliştirmeyi de doğrudan destekliyor
- Böylece üretken yapay zekanın en büyük ve en hızlı büyüyen alanlarından biri olan kurumsal kod üretimi pazarı doğrudan hedeflenebiliyor
Cline ile stratejik ortaklık, VS Code entegrasyon deneyimini güçlendiriyor
- Cerebras, 1,8 milyondan fazla kuruluma sahip en büyük VS Code kodlama ajanı Cline ile ortaklık kurdu
- Tüm Cline kullanıcıları, Qwen3-32B’yi (64K bağlam, ücretsiz) doğrudan editör içinde kullanabiliyor; ilerleyen dönemde Qwen3-235B (131K bağlam) desteği de sunulacak
- DeepSeek R1 gibi rakiplere kıyasla 10-20 kat daha hızlı kod üretim hızı sunulması planlanıyor
- Cline CEO’su Saoud Rizwan, “Gerçek zamanlı çıkarım sayesinde geliştiriciler kodu ve problemleri keşfederken düşünce hızlarıyla aynı tempoda iş akışını sürdürebiliyor” vurgusunu yaptı
30 kat hız ve 1/10 maliyetle frontier yapay zeka alternatifi
- Cerebras’ın bu lansmanı, OpenAI ve Anthropic gibi ticari modellere benzer düzeyde açık temelli model zekası ve kod üretimi isteyen geliştiricilere yeni bir seçenek sunuyor
- Özellikle, saniyede 1.500 tokenın üzerindeki anlık çıkarım hızını dünyada tek başına gerçekleştirdiğini ve GPU tabanlı sistemlere kıyasla 10 kat üretkenlik sağladığını öne çıkarıyor
- Token maliyeti de rakiplere göre 1/10’un altında kalarak makul maliyetle ultra hızlı yapay zeka sunuyor
Cerebras Systems hakkında
- Cerebras Systems, bilgisayar mimarisi, derin öğrenme, araştırma ve mühendislik uzmanlarından oluşan bir ekip olarak büyük ölçekli yapay zeka hesaplama altyapısında yeniliğe odaklanıyor
- Amiral gemisi CS-3 sistemi, dünyanın en büyük ticari yapay zeka işlemcisi olan Wafer-Scale Engine-3 ile donatılmış durumda ve kolay, hızlı kümeleme ile büyük yapay zeka süper bilgisayarları kurulmasını sağlıyor
- Cerebras Inference, çığır açan çıkarım hızı sunuyor; araştırma kurumları, şirketler ve kamu kuruluşları tarafından yüksek performanslı özel model geliştirme ve açık kaynak eğitiminde kullanılıyor
- Çözümler hem Cerebras Cloud hem de şirket içi ortamlar için sunuluyor
1 yorum
Hacker News görüşleri
Bu haber "eski sürüm" olabilir; 8 Temmuz tarihli görünüyor ve dün duyurulan Qwen 3 coder 405B çıkışıyla karıştırılarak paylaşılmış gibi. İki modelin özellikleri farklı.
Eğer bu tam fp16 quant olsaydı, 131k tam bağlamla kullanmak için 2 TB bellek gerekirdi. Bir Cerebras çipinde 44 GB SRAM var, bu yüzden 45 tanesini seri bağlamak gerekir ve tanesi $3M ise toplam $135M eder. Kıyas için, iki DGX B200 ile 2.8 TB sağlanabilir ve bu da $1M olur. Yani $1M'a karşı $135M. Çok yüksek çıkarım hızları isteyen yüksek katma değerli işler (hedge fonlar, finans piyasaları vb.) dışında verimli görünmüyor. İleride Claude Opus 4 seviyesinde (veya üstü) bir modeli on milyonlarca bağlam token'ı ve saniyede 1500 token hızında çok ucuza çalıştırabilirsek neler olacağını hayal bile edemiyorum. Donanımın bunun için birkaç nesil daha ilerlemesi gerekecek gibi.
litellmproxy kurup Qwen-235B'li yeni Cerebras API'sine bağladım ve Aider'ı takıp test ettim. Claude code kadar iyi değil ama inanılmaz hızlı. Sızmış Claude code prompt'u ile de Aider çalıştırmayı denedim ama istediğim gibi davranmadı. Claude code prompt'u belli ki Claude için optimize edilmiş. Yine de denemeye değerdi ve potansiyelinin yüksek olduğunu hissettim. Aider metni inanılmaz hızlı akıtıyor; bir şeyler kuruyor, web çağrısı yapıyor ve çıkıyor. Gerçekten göz açıp kapayıncaya kadar oluyor. Ortamımı yeniden oluşturmak için şu yapılandırmayı kullanabilirsiniz:Çalıştırma:
ve ardından
Gerekli paketleri
pipvb. ile kurun.prompt.txtiçine de sızmış Claude code prompt'unu kendiniz bulup kaydedin.Qwen 3 coder'ın Cerebras'ta desteklenmesini dört gözle bekliyorum. Ben çok fazla ajan döngüsü çalıştırıyorum ve yürütme hızı çok büyük bir zaman sıkıştırma etkisi yaratıyor. Claude 4 Sonnet seviyesinde bir model 1000~1500 token/saniye hızında çalışırsa bu gerçekten devrim olur. Hız hissini yaşamak isterseniz Cerebras Inference sayfası ya da API'si üzerinden veya Mistral / Le Chat içindeki "Flash Answers" (Cerebras tabanlı) gibi yerlerden doğrudan deneyebilirsiniz. 1000 tok/s ile kod yineleme çalıştırmak resmen sihir gibi.
Hızın gerçekten etkileyici olduğu kesin, ama benim deneyimime göre Cerebras'tan gerçek üretim düzeyinde rate limit veya token kotası almak çok zor. Bu yüzden bunları temel alarak sistem tasarlayamıyoruz ve başka bir satıcı kullanıyoruz. Satış ekibiyle de çok konuştum ama mümkün olmadığını söylediler.
Claude Code ve sonnet-4'ü çok kullanmış biri olarak, Claude Code ile Qwen3-Coder'ı karşılaştırmalı test eden var mı merak ediyorum. Cerebras'ın sunduğu yüksek hız cezbedici ama model kalitesi daha kötüyse, ne kadar hızlı olursa olsun geçmeyi düşünmem.
"Full 131k" bağlam deniyor ama gerçekte 262144 ile iki katı ve YaRN 8x ile 2 milyona kadar çıktığı söyleniyor. Aslında Cerebras'ın da bağlam uzunluğu için teorik bir sınırı var; bu, Transformer yapısının sınırı olduğu için bellek gereksinimi neredeyse doğrusal, hesaplama gereksinimi ise dört kat artıyor. Yani Cerebras da bağlam uzunluğu konusunda kapasitenin %100'ünü kullanamıyor gibi görünüyor. Ayrıca müşteriler quantization'ın tam olarak nasıl yapıldığını bilmiyor mu diye merak ediyorum.
Hız gerçekten etkileyici. Biraz farklı bir konu ama Qwen, Kimi gibi modellerin kendi ülkelerindeki sansür/önyargı konusunda nasıl davrandığını merak ediyorum.
Cerebras, son 10 yılda Silikon Vadisi'nden çıkan en çılgın (iyi anlamda) teknik başarılardan biri. 7~8 yıl önce Andy ile tanıştığımda, yemek tabağı büyüklüğünde bir çip ve 6 tonluk sıkıştırma kuvveti... bunun imkansız olduğunu düşünmüştüm. Ama gerçekten yaptılar ve şimdi bakınca, son derece ileri görüşlü bir işmiş.
Macbook'ta yerel
qwengeliştirme ortamı arıyorum.localforge+mlx_lm.serverkombinasyonunu denedim; sayfada proof-of-concept başarı deniyor ama pratikte “empty response” hatası alıyorum. Benzer deneyimi olan varsa tavsiye rica ederim.ollamaile Macbook Pro (32 GB) üzerinde yerel qwen çıkarımını gayet iyi kullanıyorum.