6 puan yazan GN⁺ 2026-02-16 | 1 yorum | WhatsApp'ta paylaş
  • Anthropic ve OpenAI, en güçlü kodlama modelleri için kendi 'fast mode' seçeneklerini duyurarak çıkarım hızını büyük ölçüde artırdı
  • Anthropic, aynı Opus 4.6 modelini kullanmaya devam ederken batch boyutunu küçülterek 2,5 kata kadar daha hızlı token işleme hızı sunuyor
  • OpenAI ise Cerebras çipleri tabanlı yeni model GPT-5.3-Codex-Spark'ı devreye alarak saniyede 1000'den fazla token üretiyor, ancak doğruluk seviyesi daha düşük
  • Bu iki yaklaşım, sırasıyla düşük batch'li çıkarım ile çok büyük çip tabanlı in-memory çıkarım gibi tamamen farklı teknik ilkeler kullanıyor
  • Hızlı çıkarım teknik açıdan etkileyici olsa da, hızdan çok doğruluğun daha önemli olduğu ve ekonomik değer ile kullanım yararının hâlâ belirsiz olduğu belirtiliyor

Anthropic'in Fast Mode yapısı

  • Anthropic'in yöntemi, batch boyutunu küçülterek gecikmeyi en aza indirmeye dayanıyor
    • GPU'lardaki temel darboğaz bellek aktarımıdır; birden fazla kullanıcının isteğini birlikte işleyen batching, throughput'u artırırken bekleme süresini yükseltir
    • Fast mode, kullanıcı istek gönderir göndermez hemen hareket eden bir 'anında kalkan otobüs' gibidir
  • Bu yöntem, 6 kat daha yüksek maliyet karşılığında 2,5 kat daha yüksek hız sunuyor
    • Batch bekleme süresi ortadan kalktığı için ilk token'a kadar olan gecikme azalıyor
    • Ancak GPU'nun toplam throughput'u düşüyor
  • Bazı kullanıcılar, ilk token'dan sonra bekleme süresinin zaten çok büyük olmadığını ve küçük batch'in etkisinin daha çok hesaplama miktarının azalmasına bağlı yürütme hızı artışına benzediğini belirtti

OpenAI'nin Fast Mode yapısı

  • OpenAI, Cerebras çiplerini kullanarak tamamen farklı bir yaklaşım benimsiyor
    • Mevcut model yerine GPT-5.3-Codex-Spark adlı hafifletilmiş (distilled) bir model kullanılıyor
    • Spark, orijinal modele göre daha az gelişmiş olsa da 15 kattan fazla daha hızlı çıkarım hızı sağlıyor
  • Cerebras çipi, 70 inç kare büyüklüğünde dev bir wafer-scale çip ve içinde 44GB SRAM barındırıyor
    • Tüm modeli SRAM'e yükleyerek harici belleğe erişmeden in-memory çıkarım gerçekleştiriyor
    • Bu, GPU'lardaki onlarca MB düzeyindeki SRAM'e kıyasla büyük bir fark yaratıyor
  • Spark modelinin birden fazla Cerebras çipi arasında sharding ile bölünerek yerleştirildiği tahmin ediliyor ve hız artışındaki temel etkenin bu yapı olduğu düşünülüyor

Teknik karşılaştırma ve değerlendirme

  • Anthropic, mevcut modeli aynen koruyup yalnızca batch politikasını ayarlıyor
  • OpenAI ise yeni bir donanım mimarisi ile model tasarımını birleştirerek daha köklü bir performans artışı elde ediyor
  • Modeli Cerebras çipleri üzerinde çalıştırmak karmaşık bir teknik zorluk, Spark modelini eğitmek de aynı şekilde kolay bir iş değil
  • İki şirketin yaklaşımı, aynı hız artışı hedefini farklı teknik yollarla gerçekleştiren örnekler; OpenAI'nin yöntemi teknik açıdan daha etkileyici görünüyor

Hızlı çıkarımın anlamı ve sınırları

  • İki şirketin açıklamalarının art arda gelmesi, 'hızlı yapay zeka çıkarımı'nın yeni rekabet ekseni hâline geldiği izlenimini verse de, gerçekte bunun stratejik bir karşılık verme niteliği ağır basıyor
    • Anthropic'in, OpenAI'nin duyurusuna hızlı biçimde yanıt verdiği anlaşılıyor
    • OpenAI ise Cerebras iş birliğinin deneysel sonuçlarını paylaşma aşamasında
  • Hızlı ama daha az gelişmiş modellerin gerçek kullanımda sınırları bulunuyor
    • Kullanıcılar model hatalarını düzeltmek için daha fazla zaman harcadığından, hızdan çok doğruluk önemli
  • Yine de bu tür 'düşük doğruluklu, yüksek hızlı çıkarım' modellerinin, yapay zeka sistemlerinde alt bileşen olarak kullanılma ihtimali var
    • Örnek: Claude Code içinde Haiku kullanım senaryoları, OpenAI'nin Spark'ı içselleştirme olasılığı

Topluluk tartışmaları ve ek gözlemler

  • Hacker News'te batching'in performans özellikleri ile çipler arası iletişim darboğazı üzerine çeşitli görüşler paylaşıldı
    • Bazıları continuous batching sayesinde bekleme süresinin neredeyse ortadan kalktığını savundu
    • Diğerleri ise çipler arası bağlantıların çıkarım hızını etkilediğini söyleyerek buna itiraz etti
  • Batch boyutu ile gecikme arasındaki ödünleşim hâlâ geçerliliğini koruyor
  • Anthropic, ilk token gecikmesinin hâlâ yavaş olabileceğini açıkça belirtirken, OpenAI bunu websocket tabanlı kalıcı bağlantı ile en aza indirmeye çalışıyor
  • Genel olarak hızlı LLM çıkarımının yapısı karmaşık ve basit bir modelle açıklanması zor

1 yorum

 
GN⁺ 2026-02-16
Hacker News görüşleri
  • İnsanlar Anthropic'in fast mode özelliğini yanlış anlıyor. Muhtemelen adı yüzünden.
    Aslında bu, daha yüksek maliyetli olan ve zor problemler üzerinde daha akıllıca çalışan bir yöntem.
    Bu makaledeki parallel distill and refine yaklaşımı buna tam olarak uyuyor.
    Birden çok yolu paralel olarak üretip ardından hızla damıtıp(distill) rafine ederek sonucu veren bir yapı.
    Bu yöntem daha fazla token tüketir, ancak daha hızlı ve daha akıllı çıktılar mümkün kılar
    speculative decoding kalite artışıyla ilgili değildir ve basit batching yalnızca hızı artırırken maliyeti düşürür
    Gemini Deepthink ve GPT-5.2-pro da benzer paralel çıkarım yapıyor, ancak tüm yolları sonuna kadar hesapladıktan sonra sonucu rafine ediyor

    • Anthropic'in resmi dokümantasyonuna göre fast mode, Opus 4.6 modelinin aynısıdır ve yalnızca API ayarı farklı olduğu için hızı önceliklendirir. Kalite aynıdır
  • Cerebras çiplerinin 44GB SRAM ile tüm modeli belleğe alıp çıkarım yapma fikri ilgi çekici
    GPT-5.3-Codex-Spark'ın boyutu, tek bir çip belleğinden çok, bağlanabilir çip sayısıyla sınırlıdır
    Cerebras 40B'den büyük modelleri de daha hızlı desteklediği için, Spark'ın GLM 4.7'ye (355B parametre, 32B aktif) daha yakın olma ihtimali yüksek
    Cerebras fiyatlandırma sayfasına bakın

    • Model shard edilirse hız ciddi biçimde düşer. wafer-scale çiplerin avantajı çip üstü bellek bant genişliğidir; bundan vazgeçilirse anlamı kalmaz
      Groq, TPU ve Nvidia çözümleri enerji verimliliği açısından daha iyidir
    • Cerebras'ın 40B'den büyük modelleri daha hızlı çalıştırabilmesi düşünüldüğünde, ana yazıdaki iddiaya güvenmek zor
    • Çipler seri bağlanırsa yalnızca gecikme(latency) artar, iş hacmi(throughput) azalmaz
    • Groq çiplerinde olduğu gibi SRAM küçük olsa bile büyük ölçekli modeller çalıştırılabilir. Dolayısıyla çip bağlantısı doğrudan hız düşüşü anlamına gelmez
  • Anthropic'in fast isteklerini en yeni donanıma yönlendirme ihtimali yüksek
    TPU, GPU gibi farklı nesillerden ekipman çalıştırıyor ve fast mode'un yalnızca en hızlı ekipmanda işleneceği tahmin ediliyor

    • GB200'ün bellek bant genişliği H100'den 2,4 kat daha hızlı. Bu yüzden fast mode büyük olasılıkla sadece donanım farkıdır
      speculative decoding gibi teknikler zaten kullanıldığı için, batching iyileştirmesinden kaynaklanıyor olması pek olası görünmüyor
  • Yazının sonundaki iddiada olduğu gibi, hızdan çok doğruluk önemli demek bugün için doğru olabilir
    Ancak OpenAI–Cerebras iş birliğiyle Codex-5.3 gibi büyük modeller doğrudan çip üzerinde çalıştırılabilirse,
    hem hızlı hem doğru modeller mümkün olur ve müşteri destek işlerinin yerini alabilecek seviyeye gelebilir

    • Ancak 40GB SRAM ile 5~7TB sınıfı modelleri çalıştırmak için birkaç megawatt düzeyinde güç gerekir. Cerebras'ın güç tüketimi çok yüksektir
      Gelecekte LLM'e özel silikonlar ortaya çıkarsa çok daha verimli bir döneme girilebilir
    • Hâlâ AI üretimi verilerle eğitimde kalite düşüşü sorunu çözülmediyse, modelleri güncellemek giderek daha zor olacaktır
  • Batch için bekletme sorunu continuous batching ile zaten çözülmüş durumda
    Bu teknoloji sayesinde Claude Code uygun maliyetle sunulabildi
    İlgili yazı

  • Otobüs benzetmesi biraz garip. Gerçekte fast mode, batch içinde daha büyük bir pay alarak iş hacmini artıran bir yöntem
    Anthropic'in trafik ölçeğine bakılırsa batch'ler neredeyse anında doluyor olmalı

  • ChatGPT'nin mesaj gönderilir gönderilmez neden hemen yanıt verdiği merak ediliyor
    Batch beklemesine gerek olmamasının nedeni, ya trafiğin aşırı yüksek olması ya da girdinin WebSocket üzerinden GPU'ya önceden stream edilmesi olabilir

  • SRAM ile HBM arasındaki fark sık sık karıştırılıyor
    HBM, DRAM tabanlıdır; kapasitesi büyüktür ama daha yavaştır, SRAM ise çok daha hızlı ama pahalıdır
    Cerebras tek çipe entegre ettiği 44GB dev SRAM ile aşırı yüksek hız elde eder
    Ancak tasarım basit olmadığı için gerçek performans çeşitli etkenlere bağlıdır

    • Nvidia'nın 80GB HBM'i harici bellektir, Cerebras'ın 44GB'ı ise dahili SRAM'dir
      OpenAI ya modeli 44GB'a sığacak şekilde tasarlamış olabilir ya da birden çok çipi zincir biçiminde bağlamış olabilir
  • Gerçek zamanlı sesli yapay zekada temel unsur gecikmedir(latency)
    İnsanlar 800ms üzerindeki beklemeyi tuhaf bulduğu için, LLM çıkarımına ayrılabilecek süre yaklaşık 400~500ms'dir
    Sonnet hızıyla (80 tok/s) tek bir cümle bile zor, ama Cerebras veya Groq hızında (1000 tok/s üzeri) 400'den fazla token mümkün
    Bu yüzden küçük modelleri alana özel ince ayarlamak, büyük modellerden daha verimli olabilir
    Birden çok küçük ajanı birleştiren council yaklaşımı, hem hız hem kaliteyi yakalamanın bir yoludur
    Ayrıca speculative decoding ile sık kullanılan yanıtlar önceden tahmin edilip TTS hazırlanırsa, konuşmaların %60'ında 200ms altında yanıt mümkün olabilir

    • OpenAI, ses modellerine odaklanan tek büyük araştırma laboratuvarı olduğu için, bu yönde daha da ilerlemesi muhtemel