3 puan yazan GN⁺ 2026-02-13 | 1 yorum | WhatsApp'ta paylaş
  • Gerçek zamanlı kodlama için tasarlanan GPT‑5.3‑Codex'in küçük bir sürümü olarak 1000 token/sn üzeri hız sunuyor
  • 128k bağlam penceresine dayalı yalnızca metin modeli olarak, anlık kod düzeltmeleri ve yinelemeli işlere odaklanıyor
  • WebSocket tabanlı yanıt yolu sayesinde yanıt gecikmesi %80 azaldı, token başına ek yük %30 azaldı, ilk token üretim süresi %50 kısaldı
  • Cerebras iş birliğiyle geliştirildi ve Wafer Scale Engine 3 kullanan yüksek hızlı çıkarım ortamında çalışıyor
  • Uzun süreli otonom çalışma ile gerçek zamanlı iş birliğini birleştiren çift modlu Codex stratejisinin ilk aşama modeli

GPT‑5.3‑Codex‑Spark genel bakış

  • GPT‑5.3‑Codex‑Spark, GPT‑5.3‑Codex'in küçük bir sürümü ve gerçek zamanlı kodlama işleri için tasarlanan ilk model
    • Ultra düşük gecikmeli donanım üzerinde 1000 token/sn üzeri üretim hızına ulaşıyor
    • Gerçek kodlama işlerinde anında tepki veriyor
  • Cerebras ile iş birliğiyle geliştirilen ilk model ve OpenAI ile Cerebras ortaklığının ilk kilometre taşı
  • ChatGPT Pro kullanıcılarına araştırma önizlemesi olarak sunuluyor; amaç erken deneyler yapmak ve geri bildirim toplamak

Temel özellikler ve performans

  • 128k bağlam penceresini destekliyor ve şu anda yalnızca metin modeli olarak sunuluyor
  • SWE‑Bench Pro ve Terminal‑Bench 2.0 kıyaslamalarında GPT‑5.3‑Codex'e göre daha kısa sürede daha yüksek performans gösteriyor
  • Hız odaklı optimizasyon sayesinde varsayılan çalışma biçimi hafif ve hedef odaklı; istenmedikçe otomatik test çalıştırmıyor
  • Gerçek zamanlı iş birliği sağlıyor; kullanıcılar modelin ilerleyişini durdurup yeniden yönlendirerek sonuçları anında görebiliyor

Gecikme ve altyapı optimizasyonu

  • Model hızının yanı sıra istek-yanıt tüm hattındaki gecikmeyi azaltmak için de iyileştirmeler yapıldı
    • İstemci-sunucu arasındaki gidiş-dönüş ek yükü %80 azaltıldı
    • Token başına ek yük %30 azaltıldı, ilk token üretim süresi %50 kısaltıldı
  • Bunun için WebSocket tabanlı kalıcı bağlantı ve Responses API iç optimizasyonları uygulandı
  • Bu iyileştirmelerin yalnızca Codex‑Spark'a değil, tüm modellere uygulanması planlanıyor

Cerebras donanım entegrasyonu

  • Codex‑Spark, Cerebras Wafer Scale Engine 3 üzerinde çalışarak gecikme odaklı bir çıkarım katmanı sağlıyor
  • OpenAI, Cerebras ile birlikte bu yolu mevcut üretim servis yığınına entegre etti ve Codex genelinde tutarlı bir çalışma ortamı oluşturdu
  • GPU altyapısı eğitim ve çıkarımın temeli olmaya devam ederken, Cerebras ultra düşük gecikmeli iş yüklerine odaklanarak tamamlayıcı bir rol üstleniyor
  • GPU ile Cerebras, tek bir iş yükünde birlikte kullanılarak en iyi performans elde edilebiliyor

Dağıtım ve erişim

  • Codex‑Spark, ChatGPT Pro kullanıcıları için Codex uygulaması, CLI ve VS Code eklentisinde araştırma önizlemesi olarak sunulmaya başladı
  • Özel kullanım sınırı (rate limit) uygulanıyor ve talebe göre ayarlanabiliyor
  • Bazı tasarım ortaklarına API erişimi verildi ve ürün entegrasyon biçimleri hakkında geri bildirim toplanıyor
  • Önümüzdeki haftalarda erişim kapsamı genişletilecek ve entegrasyonlar gerçek iş yüklerine göre ayarlanacak

Güvenlik ve gelecek yönelim

  • Codex‑Spark, mevcut ana hat modelleriyle aynı güvenlik eğitimini içeriyor ve siber güvenlikle ilgili değerlendirmeleri geçti
  • Değerlendirme sonuçları, siber güvenlik ve biyoloji alanlarında yüksek riskli yetenek eşiğine ulaşmadığını gösteriyor
  • Codex, uzun süreli çalışan muhakeme ile gerçek zamanlı iş birliğine dayalı yinelemeli işleri birleştiren iki modlu bir yapıya doğru gelişiyor
    • Gelecekte çok modlu giriş, daha büyük modeller ve daha uzun bağlam gibi özelliklerin eklenmesi planlanıyor
  • Ultra hızlı çıkarım, fikirleri anında çalıştırılabilir yazılıma dönüştürme sürecini hızlandırıyor ve doğal bir etkileşim deneyimi sunuyor

1 yorum

 
GN⁺ 2026-02-13
Hacker News yorumları
  • HN'ye görsel yüklenebilse iyi olurdu. WSE-3 çipi gerçekten devasa
    Bu çip 46.255mm² boyutunda, 4 trilyon transistör içeriyor ve 900 bin yapay zeka için optimize edilmiş çekirdekle 125 petaflop işlem gücü sunuyor. Bu da NVIDIA B200'den transistör sayısında 19 kat, işlem gücünde 28 kat fazla demek
    Ayrıntılar için Cerebras resmi sayfasına, görsel1 ve görsel2 bakılabilir

    • Isısı inanılmaz olacaktır gibi geliyor, o yüzden soğutma sistemi kritik görünüyor. Umarım elektriğini yenilenebilir enerjiden alıyordur
  • Kodlama ajanı kullanarak web tabanlı slayt destelerini otomatik üretiyorum. “Ana slayt”ı bir bileşen olarak tanımlıyor, şirket marka kuralları ve varlıklarını uyguluyorum. Bunun üstüne sadece içerik ve prompt girince temiz bir sunum çıkıyor
    Asıl istediğim şey doğaçlama modu (improv mode). Sunum sırasında dinleyici sorularına ya da anlık fikirlere göre sonraki slayt için 3 aday önerilmesi, birini seçtikten sonra da ana akışa geri dönülmesi gibi.
    Mesela bir haber yazısı ya da makaleden söz edilince ekran görüntüsü ve QR kodu içeren bir slaytın otomatik oluşturulup ardından sunum akışına dönülmesi. Gerçek zamanlı ses + kod üretimi birleşirse sunum araçları çok daha kullanışlı olabilir

    • Bu tür olasılıksal sunumların harika olduğunu düşünüyorum. Sonuç şaşırtıcı da olabilir, komik de
    • Biz de Octigen'de neredeyse aynısını yapıyoruz. Demo ya da alfa sürüm erişimi verebilirim
    • Bir hackathon'da benzer bir şey yapmıştım. Sunucunun tonu ve konuşma hızına göre teleprompter hızını ayarlayan bir sistemdi. Bunu doğaçlama moduna genişletmek gerçekten ilginç olur
    • Ders hazırlığına fazla zaman harcayan bir profesör olarak, böyle bir sistemi derste kullanmayı denemek isterim
    • Gerçek bir örnek gösterebilir misiniz merak ediyorum
  • gpt-5.3-codex-spark'ı Codex CLI'da denedim; aşırı hızlı ama model küçükmüş hissi veriyor.
    Kendi yaptığım 'bluey bench' testinde (dosya sistemi benchmark'ı) performansı ölçtüm; küçük modellerde bağlam verimliliği daha düşük oluyor ve sık sık sıkıştırma (compaction) yaşanıyor.
    Yine de hız açısından önceki nesilden çok daha hızlı

    • Keşke gelecekte tüm modeller için standart benchmark bluey bench olsa
    • Bunu Opus 4.6'yla (düşünme özelliği kapalı) karşılaştırdınız mı merak ediyorum. O model de epey hızlı
    • İsmi eski Codex'e benziyor ama performansının çok daha düşük olması tuhaf
  • Cerebras'ın hâlâ hak ettiği değeri görmeyen bir şirket olduğunu düşünüyorum. Tabak büyüklüğünde bir çip gerçekten çalışıyor ve gerçek kullanımda da diğer her şeyden daha hızlı. Müthiş bir teknoloji

    • Artık Nvidia dönemi bitiyor gibi. Google, TPUv9 ile çıkarım verimliliğini 4 kat artırmayı planlıyor, Cerebras da ajan iş yüklerinde çok daha hızlı. Güç verimliliği ve maliyet tarafında da Google üstün.
      Güç altyapısı darboğaz olduğu için ABD'de büyük ölçekli enerji santralleri kısa sürede kurulamıyor. Sonuçta TPUv8 sonrasında pazarı Google'ın yönlendireceğini düşünüyorum
    • Aslında bu çipin ‘tabak boyutunda’ olmasının nedeni, tüm wafer'ın tek bir çip olarak kullanılması. Wafer ölçekli entegrasyon onlarca yıldır araştırılan bir teknoloji
    • Dezavantajı ise fiyatının aşırı yüksek olması
    • Yine de yatırımcılar hâlâ parayı Nvidia'ya koyuyor
    • Ama bu çip tanesi 1 milyon doların üzerinde ve bir rafa ancak 1 tane sığıyor. Yoğunluk ve bellek kapasitesi yetersiz. Sonuçta Nvidia, Groq'u satın almak için 20 milyar dolar harcadıysa Cerebras'ın satın alınma ihtimali de düşük
  • Benim Pelican benchmark'ım, GPT-5.3-Codex-Spark ile tam GPT-5.3-Codex arasındaki kalite farkını görsel olarak gösteriyor
    Ayrıntılar için blog yazısına bakabilirsiniz

    • Her yeni model çıktığında bu tür benchmark'ları bekliyorum. Birçok unsuru aynı anda gösterdiği için faydalı. Blog da harika
  • Kodlama ajanlarıyla öncelik kuyruğu / katmanlı iş yükü offload etme fikri ilginç.
    İşlerin %60'ı basit düzenleme ya da refactoring ise, düşük gecikme + yüksek token işleme önemli.
    Kısa süre önce Claude için Batch API eklentisi çıktı, Nvidia ve Google da çıkarım için özel silikon hazırlıyor (haber)

    • Ama Batch API'de gecikme çok daha yüksek. Toplu işler için iyi ama tek bir gidiş-dönüş 24 saate kadar sürebiliyor. Ayrıca Codex ya da Pro modelleri Batch API'de desteklenmiyor
    • Ben de Claude'un GLM 4.7 on Cerebras'a geliştirmeyi dış kaynak gibi devredebildiği bir MCP yaptım. Claude'un sistem prompt'unu, çıktı dosyalarını ve bağlam dosyalarını belirleyebilmesini sağladım; geliştirme hızı ciddi biçimde arttı
  • Bunun sektör standardı hâline gelmesinin üstünden daha 20 dakika geçti, ama hâlâ GPT-5.3-Codex kullananların olması şaşırtıcı

    • Ben de başlığı görünce “GPT duyurulduysa Google ya da Anthropic de bir şey çıkarmıştır” dedim, nitekim Gemini de varmış
  • OpenAI bunu muhtemelen Openrouter'da Aurora Alpha adıyla test ediyor olabilir.
    Aider ile küçük bir projede denedim; 10 bin giriş token'ını ve 1.000 çıkış token'ını saniyede 500 token hızında işledi

  • “En yeni modeller saatlerce hatta günlerce otonom şekilde çalışabiliyor” ifadesini gördüm ama henüz gerçekten işe yarar bir çıktı görmedim

    • Bunu ne kadar denediğinizi sormak isterim. Opus 4.6 ya da GPT-5.3 uzun süreli işlerde belirgin şekilde iyileşti. Örneğin bu proje ve demo sayfası tek bir prompt ile tamamlandı (prompt bağlantısı)
    • Ben sık sık Codex'i gece boyunca çalıştırıp hata bulmasını sağlıyorum. Hata ayıklamayı otomatikleştirmek için gerçekten ideal
    • Modelin durmadan token yakmaya devam etme yeteneği etkileyici
    • “Modelimiz o kadar yavaş ki işler saatler sürüyor” söylemi komik. Bunun övünülecek bir şey olduğunu sanmıyorum
    • Birkaç gün önce Codex, şirket sitemdeki Vite 8 yükseltmesini 3 saatten uzun süre boyunca tek başına halletti. Şu anda gerçekten production'da kullanılıyor
  • Sonunda büyük üçlüden birinin Cerebras kullandığını görüyoruz. Bu günü uzun zamandır bekliyordum

    • Başta doğrulanmamış bir teknoloji diye çekiniliyordu ama artık hız açısından büyük bir sıçrama yapmış gibi görünüyor