1 puan yazan GN⁺ 2025-07-24 | 1 yorum | WhatsApp'ta paylaş
  • Cerebras, Qwen3-235B yapay zeka modelini tanıtarak saniyede 1.500 token üretimiyle anlık çıkarım performansı sunuyor
  • Mevcut kapalı modellere kıyasla 1/10 maliyetle 30 kat daha hızlı üretkenlik ve kod üretimi sağlıyor
  • 131K bağlam desteğiyle büyük ölçekli kod tabanları ve karmaşık belge işleme mümkün hale geliyor
  • Cline ile iş birliği yaparak Microsoft VS Code içinde gerçek zamanlı kod üretimi deneyimini genişletiyor
  • Bu lansmanla açık kaynak temelli, yüksek performanslı ve makul maliyetli bir OpenAI, Anthropic alternatifi sunuluyor

Qwen3-235B: Cerebras’ın ultra hızlı yapay zeka çıkarım modeli lansmanı ve öne çıkan sonuçları

Dünyanın en hızlı yapay zeka çıkarım modeli, Cerebras Inference Cloud’da tanıtıldı

  • Cerebras Systems, 8 Temmuz 2025’te Qwen3-235B’yi resmen piyasaya sürerek 131K bağlama kadar tam destek sunan yeni bir yapay zeka çıkarım modelini duyurdu
  • Bu model, kapalı alternatiflere kıyasla 1/10 seviyesinde maliyetle frontier düzeyinde yapay zeka yetenekleri ile ultra hızlı çıkarım performansını birleştirerek kurumsal yapay zeka benimseniminde dönüşüm vadediyor

Frontier model düzeyinde zeka

  • Alibaba’nın Qwen3-235B modeli, Claude 4 Sonnet, Gemini 2.5 Flash ve DeepSeek R1 gibi son teknoloji rakip modellerle denk düzeyde bilim, kod ve genel bilgi benchmark performansı sunduğunu Artificial Analysis bağımsız değerlendirmesiyle kanıtladı
  • Mixture-of-Experts mimarisiyle hesaplama verimliliğini en üst düzeye çıkarırken, milyon giriş tokenı başına 0,60 dolar ve milyon çıkış tokenı başına 1,20 dolar fiyatla sunularak mevcut kapalı modellere kıyasla son derece düşük maliyetli kullanım sağlıyor

Çıkarım hızı: dakikalardan saniyelere dönüşüm

  • Geleneksel çıkarım yapan yapay zeka sistemlerinde sıradan sorgular bile çoğu zaman birkaç dakika sürebiliyor
  • Wafer Scale Engine kullanımı sayesinde Qwen3-235B, saniyede 1.500 token çıktı üreterek sorgu-yanıt süresini 1-2 dakikadan 0,6 saniyeye indiriyor
  • Böylece kod üretimi, akıl yürütme ve büyük ölçekli RAG iş akışları anlık tepki verebilir hale geliyor ve gerçek zamanlı yapay zeka performansı için yeni bir standart oluşturuyor
  • Artificial Analysis ölçümüne göre model, dünya çapında saniyede 1.000 tokenın üzerinde üretim yapan tek frontier yapay zeka modeli olarak değerlendiriliyor

131K bağlam: gerçek dünya kod üretimi desteği

  • Qwen3-235B lansmanıyla birlikte Cerebras, mevcut 32K bağlamı 131K’ye çıkararak 4 kat genişletilmiş destek sunuyor
  • Bu sayede büyük kod tabanları ve karmaşık belgeler tek seferde çıkarıma sokulabiliyor; onlarca dosya ve on binlerce satır üzerinde eşzamanlı kod üretimiyle üretim ortamına yönelik geliştirme olasılığı büyük ölçüde artıyor
  • Mevcut 32K bağlamla yalnızca basit kod üretimi mümkünken, 131K bağlam büyük uygulama geliştirmeyi de doğrudan destekliyor
  • Böylece üretken yapay zekanın en büyük ve en hızlı büyüyen alanlarından biri olan kurumsal kod üretimi pazarı doğrudan hedeflenebiliyor

Cline ile stratejik ortaklık, VS Code entegrasyon deneyimini güçlendiriyor

  • Cerebras, 1,8 milyondan fazla kuruluma sahip en büyük VS Code kodlama ajanı Cline ile ortaklık kurdu
  • Tüm Cline kullanıcıları, Qwen3-32B’yi (64K bağlam, ücretsiz) doğrudan editör içinde kullanabiliyor; ilerleyen dönemde Qwen3-235B (131K bağlam) desteği de sunulacak
  • DeepSeek R1 gibi rakiplere kıyasla 10-20 kat daha hızlı kod üretim hızı sunulması planlanıyor
  • Cline CEO’su Saoud Rizwan, “Gerçek zamanlı çıkarım sayesinde geliştiriciler kodu ve problemleri keşfederken düşünce hızlarıyla aynı tempoda iş akışını sürdürebiliyor” vurgusunu yaptı

30 kat hız ve 1/10 maliyetle frontier yapay zeka alternatifi

  • Cerebras’ın bu lansmanı, OpenAI ve Anthropic gibi ticari modellere benzer düzeyde açık temelli model zekası ve kod üretimi isteyen geliştiricilere yeni bir seçenek sunuyor
  • Özellikle, saniyede 1.500 tokenın üzerindeki anlık çıkarım hızını dünyada tek başına gerçekleştirdiğini ve GPU tabanlı sistemlere kıyasla 10 kat üretkenlik sağladığını öne çıkarıyor
  • Token maliyeti de rakiplere göre 1/10’un altında kalarak makul maliyetle ultra hızlı yapay zeka sunuyor

Cerebras Systems hakkında

  • Cerebras Systems, bilgisayar mimarisi, derin öğrenme, araştırma ve mühendislik uzmanlarından oluşan bir ekip olarak büyük ölçekli yapay zeka hesaplama altyapısında yeniliğe odaklanıyor
  • Amiral gemisi CS-3 sistemi, dünyanın en büyük ticari yapay zeka işlemcisi olan Wafer-Scale Engine-3 ile donatılmış durumda ve kolay, hızlı kümeleme ile büyük yapay zeka süper bilgisayarları kurulmasını sağlıyor
  • Cerebras Inference, çığır açan çıkarım hızı sunuyor; araştırma kurumları, şirketler ve kamu kuruluşları tarafından yüksek performanslı özel model geliştirme ve açık kaynak eğitiminde kullanılıyor
  • Çözümler hem Cerebras Cloud hem de şirket içi ortamlar için sunuluyor

1 yorum

 
GN⁺ 2025-07-24
Hacker News görüşleri
  • Bu haber "eski sürüm" olabilir; 8 Temmuz tarihli görünüyor ve dün duyurulan Qwen 3 coder 405B çıkışıyla karıştırılarak paylaşılmış gibi. İki modelin özellikleri farklı.

    • İlk başta bunun iki gün önce duyurulan Qwen3-235B-A22B-Instruct-2507 olduğunu sanmıştım (bağlantı). O model reasoning olmayan bir modeldi, Cerebras duyurusu ise reasoning'den bahsettiği için bunun Nisan'da çıkan Qwen3-235B-A22B olduğunu anladım. Model adları kafa karıştırıyor.
  • Eğer bu tam fp16 quant olsaydı, 131k tam bağlamla kullanmak için 2 TB bellek gerekirdi. Bir Cerebras çipinde 44 GB SRAM var, bu yüzden 45 tanesini seri bağlamak gerekir ve tanesi $3M ise toplam $135M eder. Kıyas için, iki DGX B200 ile 2.8 TB sağlanabilir ve bu da $1M olur. Yani $1M'a karşı $135M. Çok yüksek çıkarım hızları isteyen yüksek katma değerli işler (hedge fonlar, finans piyasaları vb.) dışında verimli görünmüyor. İleride Claude Opus 4 seviyesinde (veya üstü) bir modeli on milyonlarca bağlam token'ı ve saniyede 1500 token hızında çok ucuza çalıştırabilirsek neler olacağını hayal bile edemiyorum. Donanımın bunun için birkaç nesil daha ilerlemesi gerekecek gibi.

    • “Cerebras çip başına 44 GB SRAM, 45 çip seri gerekir, toplam $135M” hesabı yanlış. 44 GB SRAM, yani çip içi bellek; model parametrelerinin çoğu HBM'de tutulur. Örneğin GB200'de yalnızca 126 MB SRAM var; sadece önbellek kapasitesine bakarak 2 TB'lık bir model için gereken çip sayısını hesaplarsanız sonuç saçma olur. Cerebras, HBM'i çipten ayrı ölçekleyebiliyor ve MemoryX gibi sistemlerle neredeyse 2 PB'ye kadar bağlanabiliyor (ilgili yazı). Uzman sayılmam ama Cerebras mimarisinde bellek sınırı çok daha geniş.
    • Çip içi SRAM tamamen geçici çalışma belleği; tüm model ağırlıklarını barındırmak zorunda değil. Cerebras, sparse ağırlık yaklaşımıyla dış bellekten yalnızca gereken veriyi akış halinde alıyor ve çekirdekler iletim tetiklemeli şekilde çalışıyor.
    • “Çalıştırılabilir/çalıştırılamaz” bakışı fazla basit kalıyor. Pratikte asıl önemli nokta, tüm sistemi birden çok kullanıcıya paylaştırabilecek throughput. Golf arabası da tren de doğudan batıya gidebilir ama ekonomileri farklıdır. Minimum dağıtım ölçeği önemli olsa da, büyük bir bulut API'si üzerinden token satıyorsanız müşteri açısından bunun pek önemi yok.
    • Çıkarımı sabit fp16 ile çalıştırmak zorunda değilsiniz. Güncel quantization formatları, gereken katmanlara farklı hassasiyetler atıyor; ortalama 6 bit/parametre ile bile neredeyse hiç fark hissedilmiyor. Zorlasanız bile 8 bit/parametre yeterli. Bu çok büyük bir bellek tasarrufu demek.
    • Bizim çiplerimizin tanesi $3M değil. Bu rakamın nereden geldiğini bilmiyorum ama tamamen yanlış bir bilgi.
  • litellm proxy kurup Qwen-235B'li yeni Cerebras API'sine bağladım ve Aider'ı takıp test ettim. Claude code kadar iyi değil ama inanılmaz hızlı. Sızmış Claude code prompt'u ile de Aider çalıştırmayı denedim ama istediğim gibi davranmadı. Claude code prompt'u belli ki Claude için optimize edilmiş. Yine de denemeye değerdi ve potansiyelinin yüksek olduğunu hissettim. Aider metni inanılmaz hızlı akıtıyor; bir şeyler kuruyor, web çağrısı yapıyor ve çıkıyor. Gerçekten göz açıp kapayıncaya kadar oluyor. Ortamımı yeniden oluşturmak için şu yapılandırmayı kullanabilirsiniz:

    model_list:
     - model_name: qwen3-235b
      litellm_params:
       model: cerebras/qwen-3-235b-a22b
       api_key: os.environ/CEREBRAS_API_KEY
       api_base: https://api.cerebras.ai/v1
    

    Çalıştırma:

    litellm --config config.yaml --port 4000 --debug
    

    ve ardından

    aider --model cerebras/qwen-3-235b-a22b --openai-api-base http://localhost:4000 --openai-api-key fake-key --no-show-model-warnings --auto-commits --system-file ./prompt.txt --yes
    

    Gerekli paketleri pip vb. ile kurun. prompt.txt içine de sızmış Claude code prompt'unu kendiniz bulup kaydedin.

  • Qwen 3 coder'ın Cerebras'ta desteklenmesini dört gözle bekliyorum. Ben çok fazla ajan döngüsü çalıştırıyorum ve yürütme hızı çok büyük bir zaman sıkıştırma etkisi yaratıyor. Claude 4 Sonnet seviyesinde bir model 1000~1500 token/saniye hızında çalışırsa bu gerçekten devrim olur. Hız hissini yaşamak isterseniz Cerebras Inference sayfası ya da API'si üzerinden veya Mistral / Le Chat içindeki "Flash Answers" (Cerebras tabanlı) gibi yerlerden doğrudan deneyebilirsiniz. 1000 tok/s ile kod yineleme çalıştırmak resmen sihir gibi.

    • Aynen bu. Böyle bir hızda iş verimliliğim ciddi biçimde artar. Ajanı her bekleyişimde odak ve bağlam kopuyor. Paralel çalıştırınca hızlı oluyor ama odaktan ödün veriyorum. Cursor gibi bir IDE'de yineleme döngüsü neredeyse anında dönerse daha da sihirli hissettirir. Ayrıca bu hızda çalışma biçiminin kendisi değişir. Cursor gibi etkileşimli bir IDE, komut satırı tabanlı Claude code'dan çok daha doğal hissettirecektir.
    • Bende de durum aynı. Ama Cerebras API'sinin daha iyi OpenAI uyumluluğu kazanması lazım. Çeşitli kod ajanlarıyla (Cline dahil) mevcut modelleri denedim ama ya 400 hatası aldım ya da araç çağırma formatı sorunları çıktı; hiçbiri düzgün çalışmadı. Hayal kırıklığıydı.
    • Birkaç gün önce Groq üzerinde Kimi K2 kurup hıza şaşırmıştım. Qwen 3 ve Cerebras'a geçmeli miyim diye düşünüyorum. (Bu arada, isim bana Starcraft zerg hiyerarşisindeki cerebrate'i hatırlatıyor; çocukken ilgimi çeken bir anı.)
    • LLM ajanlarının hızı böyle artarsa, sonunda geliştirme sürecinde derleme süresi darboğaz haline gelebilir. O zaman derleyici performansını artırmak için ekonomik bir teşvik oluşur.
  • Hızın gerçekten etkileyici olduğu kesin, ama benim deneyimime göre Cerebras'tan gerçek üretim düzeyinde rate limit veya token kotası almak çok zor. Bu yüzden bunları temel alarak sistem tasarlayamıyoruz ve başka bir satıcı kullanıyoruz. Satış ekibiyle de çok konuştum ama mümkün olmadığını söylediler.

  • Claude Code ve sonnet-4'ü çok kullanmış biri olarak, Claude Code ile Qwen3-Coder'ı karşılaştırmalı test eden var mı merak ediyorum. Cerebras'ın sunduğu yüksek hız cezbedici ama model kalitesi daha kötüyse, ne kadar hızlı olursa olsun geçmeyi düşünmem.

    • Qwen'i denemedim ama Groq vb. üzerinde “anlık token” çıkarım hizmetleri ve diffusion modelleriyle LLaMA tabanlı kod üreticileri kullandım; sonuçlar pek tatmin edici değildi. Eğer Gemini 2.5 pro veya Sonnet 4 seviyesinde bir model Cerebras üzerinde on binlerce satır kodu birkaç saniyede üretebilirse, gerçekten dengeler değişir.
  • "Full 131k" bağlam deniyor ama gerçekte 262144 ile iki katı ve YaRN 8x ile 2 milyona kadar çıktığı söyleniyor. Aslında Cerebras'ın da bağlam uzunluğu için teorik bir sınırı var; bu, Transformer yapısının sınırı olduğu için bellek gereksinimi neredeyse doğrusal, hesaplama gereksinimi ise dört kat artıyor. Yani Cerebras da bağlam uzunluğu konusunda kapasitenin %100'ünü kullanamıyor gibi görünüyor. Ayrıca müşteriler quantization'ın tam olarak nasıl yapıldığını bilmiyor mu diye merak ediyorum.

    • Model sayfasında yerel bağlamın 32768 olduğu ve 4x YaRN'de performansın doğrulandığı yazıyor (bağlantı). Bu da 131k ile aşağı yukarı örtüşüyor gibi.
  • Hız gerçekten etkileyici. Biraz farklı bir konu ama Qwen, Kimi gibi modellerin kendi ülkelerindeki sansür/önyargı konusunda nasıl davrandığını merak ediyorum.

    • Qwen modellerinin, açık modeller arasında kalite açısından çok yüksek değerlendirildiği söyleniyor (özellikle MoE yapısı). Aynı zamanda çok ağır sansür uygulanmış durumda. “Tiananmen Meydanı'nda ne oldu?”dan “büyük protestolar”a, hatta “tanklarla ilgili bir şey mi?” diye sorsanız bile sadece meydanın güzel ve tarihi bir yer olduğuna dair muğlak cevaplarla geçiştiriyor.
  • Cerebras, son 10 yılda Silikon Vadisi'nden çıkan en çılgın (iyi anlamda) teknik başarılardan biri. 7~8 yıl önce Andy ile tanıştığımda, yemek tabağı büyüklüğünde bir çip ve 6 tonluk sıkıştırma kuvveti... bunun imkansız olduğunu düşünmüştüm. Ama gerçekten yaptılar ve şimdi bakınca, son derece ileri görüşlü bir işmiş.

    • Fikir havalı ama gerçekten Nvidia yerine Cerebras kullanan var mı?
    • Aslında tasarım HPC ve FLOPS için; LLM çıkarımında ise sonuçta bellek bant genişliği daha önemli.
    • Bu, eski bir fikrin modern yorumu. Wafer-scale, analog ve sinir ağlarıyla ilgili makaleleri ilk kez Avrupa araştırmalarında görmüştüm. Başka bir proje de bulmuştum. (makale1, makale2). İkinci makale 1989 tarihli, yani patentlerin hepsinin süresi dolmuştur.
    • wafer-scale integration onlarca yıl önce zaten denenmişti.
  • Macbook'ta yerel qwen geliştirme ortamı arıyorum. localforge + mlx_lm.server kombinasyonunu denedim; sayfada proof-of-concept başarı deniyor ama pratikte “empty response” hatası alıyorum. Benzer deneyimi olan varsa tavsiye rica ederim.

    • Belki sorunu yanlış anlamış olabilirim ama ollama ile Macbook Pro (32 GB) üzerinde yerel qwen çıkarımını gayet iyi kullanıyorum.