- Gerçek zamanlı kodlama için tasarlanan GPT‑5.3‑Codex'in küçük bir sürümü olarak 1000 token/sn üzeri hız sunuyor
- 128k bağlam penceresine dayalı yalnızca metin modeli olarak, anlık kod düzeltmeleri ve yinelemeli işlere odaklanıyor
- WebSocket tabanlı yanıt yolu sayesinde yanıt gecikmesi %80 azaldı, token başına ek yük %30 azaldı, ilk token üretim süresi %50 kısaldı
- Cerebras iş birliğiyle geliştirildi ve Wafer Scale Engine 3 kullanan yüksek hızlı çıkarım ortamında çalışıyor
- Uzun süreli otonom çalışma ile gerçek zamanlı iş birliğini birleştiren çift modlu Codex stratejisinin ilk aşama modeli
GPT‑5.3‑Codex‑Spark genel bakış
- GPT‑5.3‑Codex‑Spark, GPT‑5.3‑Codex'in küçük bir sürümü ve gerçek zamanlı kodlama işleri için tasarlanan ilk model
- Ultra düşük gecikmeli donanım üzerinde 1000 token/sn üzeri üretim hızına ulaşıyor
- Gerçek kodlama işlerinde anında tepki veriyor
- Cerebras ile iş birliğiyle geliştirilen ilk model ve OpenAI ile Cerebras ortaklığının ilk kilometre taşı
- ChatGPT Pro kullanıcılarına araştırma önizlemesi olarak sunuluyor; amaç erken deneyler yapmak ve geri bildirim toplamak
Temel özellikler ve performans
- 128k bağlam penceresini destekliyor ve şu anda yalnızca metin modeli olarak sunuluyor
- SWE‑Bench Pro ve Terminal‑Bench 2.0 kıyaslamalarında GPT‑5.3‑Codex'e göre daha kısa sürede daha yüksek performans gösteriyor
- Hız odaklı optimizasyon sayesinde varsayılan çalışma biçimi hafif ve hedef odaklı; istenmedikçe otomatik test çalıştırmıyor
- Gerçek zamanlı iş birliği sağlıyor; kullanıcılar modelin ilerleyişini durdurup yeniden yönlendirerek sonuçları anında görebiliyor
Gecikme ve altyapı optimizasyonu
- Model hızının yanı sıra istek-yanıt tüm hattındaki gecikmeyi azaltmak için de iyileştirmeler yapıldı
- İstemci-sunucu arasındaki gidiş-dönüş ek yükü %80 azaltıldı
- Token başına ek yük %30 azaltıldı, ilk token üretim süresi %50 kısaltıldı
- Bunun için WebSocket tabanlı kalıcı bağlantı ve Responses API iç optimizasyonları uygulandı
- Bu iyileştirmelerin yalnızca Codex‑Spark'a değil, tüm modellere uygulanması planlanıyor
Cerebras donanım entegrasyonu
- Codex‑Spark, Cerebras Wafer Scale Engine 3 üzerinde çalışarak gecikme odaklı bir çıkarım katmanı sağlıyor
- OpenAI, Cerebras ile birlikte bu yolu mevcut üretim servis yığınına entegre etti ve Codex genelinde tutarlı bir çalışma ortamı oluşturdu
- GPU altyapısı eğitim ve çıkarımın temeli olmaya devam ederken, Cerebras ultra düşük gecikmeli iş yüklerine odaklanarak tamamlayıcı bir rol üstleniyor
- GPU ile Cerebras, tek bir iş yükünde birlikte kullanılarak en iyi performans elde edilebiliyor
Dağıtım ve erişim
- Codex‑Spark, ChatGPT Pro kullanıcıları için Codex uygulaması, CLI ve VS Code eklentisinde araştırma önizlemesi olarak sunulmaya başladı
- Özel kullanım sınırı (rate limit) uygulanıyor ve talebe göre ayarlanabiliyor
- Bazı tasarım ortaklarına API erişimi verildi ve ürün entegrasyon biçimleri hakkında geri bildirim toplanıyor
- Önümüzdeki haftalarda erişim kapsamı genişletilecek ve entegrasyonlar gerçek iş yüklerine göre ayarlanacak
Güvenlik ve gelecek yönelim
- Codex‑Spark, mevcut ana hat modelleriyle aynı güvenlik eğitimini içeriyor ve siber güvenlikle ilgili değerlendirmeleri geçti
- Değerlendirme sonuçları, siber güvenlik ve biyoloji alanlarında yüksek riskli yetenek eşiğine ulaşmadığını gösteriyor
- Codex, uzun süreli çalışan muhakeme ile gerçek zamanlı iş birliğine dayalı yinelemeli işleri birleştiren iki modlu bir yapıya doğru gelişiyor
- Gelecekte çok modlu giriş, daha büyük modeller ve daha uzun bağlam gibi özelliklerin eklenmesi planlanıyor
- Ultra hızlı çıkarım, fikirleri anında çalıştırılabilir yazılıma dönüştürme sürecini hızlandırıyor ve doğal bir etkileşim deneyimi sunuyor
1 yorum
Hacker News yorumları
HN'ye görsel yüklenebilse iyi olurdu. WSE-3 çipi gerçekten devasa
Bu çip 46.255mm² boyutunda, 4 trilyon transistör içeriyor ve 900 bin yapay zeka için optimize edilmiş çekirdekle 125 petaflop işlem gücü sunuyor. Bu da NVIDIA B200'den transistör sayısında 19 kat, işlem gücünde 28 kat fazla demek
Ayrıntılar için Cerebras resmi sayfasına, görsel1 ve görsel2 bakılabilir
Kodlama ajanı kullanarak web tabanlı slayt destelerini otomatik üretiyorum. “Ana slayt”ı bir bileşen olarak tanımlıyor, şirket marka kuralları ve varlıklarını uyguluyorum. Bunun üstüne sadece içerik ve prompt girince temiz bir sunum çıkıyor
Asıl istediğim şey doğaçlama modu (improv mode). Sunum sırasında dinleyici sorularına ya da anlık fikirlere göre sonraki slayt için 3 aday önerilmesi, birini seçtikten sonra da ana akışa geri dönülmesi gibi.
Mesela bir haber yazısı ya da makaleden söz edilince ekran görüntüsü ve QR kodu içeren bir slaytın otomatik oluşturulup ardından sunum akışına dönülmesi. Gerçek zamanlı ses + kod üretimi birleşirse sunum araçları çok daha kullanışlı olabilir
gpt-5.3-codex-spark'ı Codex CLI'da denedim; aşırı hızlı ama model küçükmüş hissi veriyor.
Kendi yaptığım 'bluey bench' testinde (dosya sistemi benchmark'ı) performansı ölçtüm; küçük modellerde bağlam verimliliği daha düşük oluyor ve sık sık sıkıştırma (compaction) yaşanıyor.
Yine de hız açısından önceki nesilden çok daha hızlı
Cerebras'ın hâlâ hak ettiği değeri görmeyen bir şirket olduğunu düşünüyorum. Tabak büyüklüğünde bir çip gerçekten çalışıyor ve gerçek kullanımda da diğer her şeyden daha hızlı. Müthiş bir teknoloji
Güç altyapısı darboğaz olduğu için ABD'de büyük ölçekli enerji santralleri kısa sürede kurulamıyor. Sonuçta TPUv8 sonrasında pazarı Google'ın yönlendireceğini düşünüyorum
Benim Pelican benchmark'ım, GPT-5.3-Codex-Spark ile tam GPT-5.3-Codex arasındaki kalite farkını görsel olarak gösteriyor
Ayrıntılar için blog yazısına bakabilirsiniz
Kodlama ajanlarıyla öncelik kuyruğu / katmanlı iş yükü offload etme fikri ilginç.
İşlerin %60'ı basit düzenleme ya da refactoring ise, düşük gecikme + yüksek token işleme önemli.
Kısa süre önce Claude için Batch API eklentisi çıktı, Nvidia ve Google da çıkarım için özel silikon hazırlıyor (haber)
Bunun sektör standardı hâline gelmesinin üstünden daha 20 dakika geçti, ama hâlâ GPT-5.3-Codex kullananların olması şaşırtıcı
OpenAI bunu muhtemelen Openrouter'da Aurora Alpha adıyla test ediyor olabilir.
Aider ile küçük bir projede denedim; 10 bin giriş token'ını ve 1.000 çıkış token'ını saniyede 500 token hızında işledi
“En yeni modeller saatlerce hatta günlerce otonom şekilde çalışabiliyor” ifadesini gördüm ama henüz gerçekten işe yarar bir çıktı görmedim
Sonunda büyük üçlüden birinin Cerebras kullandığını görüyoruz. Bu günü uzun zamandır bekliyordum