- Anthropic ve OpenAI, en güçlü kodlama modelleri için kendi 'fast mode' seçeneklerini duyurarak çıkarım hızını büyük ölçüde artırdı
- Anthropic, aynı Opus 4.6 modelini kullanmaya devam ederken batch boyutunu küçülterek 2,5 kata kadar daha hızlı token işleme hızı sunuyor
- OpenAI ise Cerebras çipleri tabanlı yeni model GPT-5.3-Codex-Spark'ı devreye alarak saniyede 1000'den fazla token üretiyor, ancak doğruluk seviyesi daha düşük
- Bu iki yaklaşım, sırasıyla düşük batch'li çıkarım ile çok büyük çip tabanlı in-memory çıkarım gibi tamamen farklı teknik ilkeler kullanıyor
- Hızlı çıkarım teknik açıdan etkileyici olsa da, hızdan çok doğruluğun daha önemli olduğu ve ekonomik değer ile kullanım yararının hâlâ belirsiz olduğu belirtiliyor
Anthropic'in Fast Mode yapısı
- Anthropic'in yöntemi, batch boyutunu küçülterek gecikmeyi en aza indirmeye dayanıyor
- GPU'lardaki temel darboğaz bellek aktarımıdır; birden fazla kullanıcının isteğini birlikte işleyen batching, throughput'u artırırken bekleme süresini yükseltir
- Fast mode, kullanıcı istek gönderir göndermez hemen hareket eden bir 'anında kalkan otobüs' gibidir
- Bu yöntem, 6 kat daha yüksek maliyet karşılığında 2,5 kat daha yüksek hız sunuyor
- Batch bekleme süresi ortadan kalktığı için ilk token'a kadar olan gecikme azalıyor
- Ancak GPU'nun toplam throughput'u düşüyor
- Bazı kullanıcılar, ilk token'dan sonra bekleme süresinin zaten çok büyük olmadığını ve küçük batch'in etkisinin daha çok hesaplama miktarının azalmasına bağlı yürütme hızı artışına benzediğini belirtti
OpenAI'nin Fast Mode yapısı
- OpenAI, Cerebras çiplerini kullanarak tamamen farklı bir yaklaşım benimsiyor
- Mevcut model yerine GPT-5.3-Codex-Spark adlı hafifletilmiş (distilled) bir model kullanılıyor
- Spark, orijinal modele göre daha az gelişmiş olsa da 15 kattan fazla daha hızlı çıkarım hızı sağlıyor
- Cerebras çipi, 70 inç kare büyüklüğünde dev bir wafer-scale çip ve içinde 44GB SRAM barındırıyor
- Tüm modeli SRAM'e yükleyerek harici belleğe erişmeden in-memory çıkarım gerçekleştiriyor
- Bu, GPU'lardaki onlarca MB düzeyindeki SRAM'e kıyasla büyük bir fark yaratıyor
- Spark modelinin birden fazla Cerebras çipi arasında sharding ile bölünerek yerleştirildiği tahmin ediliyor ve hız artışındaki temel etkenin bu yapı olduğu düşünülüyor
Teknik karşılaştırma ve değerlendirme
- Anthropic, mevcut modeli aynen koruyup yalnızca batch politikasını ayarlıyor
- OpenAI ise yeni bir donanım mimarisi ile model tasarımını birleştirerek daha köklü bir performans artışı elde ediyor
- Modeli Cerebras çipleri üzerinde çalıştırmak karmaşık bir teknik zorluk, Spark modelini eğitmek de aynı şekilde kolay bir iş değil
- İki şirketin yaklaşımı, aynı hız artışı hedefini farklı teknik yollarla gerçekleştiren örnekler; OpenAI'nin yöntemi teknik açıdan daha etkileyici görünüyor
Hızlı çıkarımın anlamı ve sınırları
- İki şirketin açıklamalarının art arda gelmesi, 'hızlı yapay zeka çıkarımı'nın yeni rekabet ekseni hâline geldiği izlenimini verse de, gerçekte bunun stratejik bir karşılık verme niteliği ağır basıyor
- Anthropic'in, OpenAI'nin duyurusuna hızlı biçimde yanıt verdiği anlaşılıyor
- OpenAI ise Cerebras iş birliğinin deneysel sonuçlarını paylaşma aşamasında
- Hızlı ama daha az gelişmiş modellerin gerçek kullanımda sınırları bulunuyor
- Kullanıcılar model hatalarını düzeltmek için daha fazla zaman harcadığından, hızdan çok doğruluk önemli
- Yine de bu tür 'düşük doğruluklu, yüksek hızlı çıkarım' modellerinin, yapay zeka sistemlerinde alt bileşen olarak kullanılma ihtimali var
- Örnek: Claude Code içinde Haiku kullanım senaryoları, OpenAI'nin Spark'ı içselleştirme olasılığı
Topluluk tartışmaları ve ek gözlemler
- Hacker News'te batching'in performans özellikleri ile çipler arası iletişim darboğazı üzerine çeşitli görüşler paylaşıldı
- Bazıları continuous batching sayesinde bekleme süresinin neredeyse ortadan kalktığını savundu
- Diğerleri ise çipler arası bağlantıların çıkarım hızını etkilediğini söyleyerek buna itiraz etti
- Batch boyutu ile gecikme arasındaki ödünleşim hâlâ geçerliliğini koruyor
- Anthropic, ilk token gecikmesinin hâlâ yavaş olabileceğini açıkça belirtirken, OpenAI bunu websocket tabanlı kalıcı bağlantı ile en aza indirmeye çalışıyor
- Genel olarak hızlı LLM çıkarımının yapısı karmaşık ve basit bir modelle açıklanması zor
1 yorum
Hacker News görüşleri
İnsanlar Anthropic'in fast mode özelliğini yanlış anlıyor. Muhtemelen adı yüzünden.
Aslında bu, daha yüksek maliyetli olan ve zor problemler üzerinde daha akıllıca çalışan bir yöntem.
Bu makaledeki parallel distill and refine yaklaşımı buna tam olarak uyuyor.
Birden çok yolu paralel olarak üretip ardından hızla damıtıp(distill) rafine ederek sonucu veren bir yapı.
Bu yöntem daha fazla token tüketir, ancak daha hızlı ve daha akıllı çıktılar mümkün kılar
speculative decoding kalite artışıyla ilgili değildir ve basit batching yalnızca hızı artırırken maliyeti düşürür
Gemini Deepthink ve GPT-5.2-pro da benzer paralel çıkarım yapıyor, ancak tüm yolları sonuna kadar hesapladıktan sonra sonucu rafine ediyor
Cerebras çiplerinin 44GB SRAM ile tüm modeli belleğe alıp çıkarım yapma fikri ilgi çekici
GPT-5.3-Codex-Spark'ın boyutu, tek bir çip belleğinden çok, bağlanabilir çip sayısıyla sınırlıdır
Cerebras 40B'den büyük modelleri de daha hızlı desteklediği için, Spark'ın GLM 4.7'ye (355B parametre, 32B aktif) daha yakın olma ihtimali yüksek
Cerebras fiyatlandırma sayfasına bakın
Groq, TPU ve Nvidia çözümleri enerji verimliliği açısından daha iyidir
Anthropic'in fast isteklerini en yeni donanıma yönlendirme ihtimali yüksek
TPU, GPU gibi farklı nesillerden ekipman çalıştırıyor ve fast mode'un yalnızca en hızlı ekipmanda işleneceği tahmin ediliyor
speculative decoding gibi teknikler zaten kullanıldığı için, batching iyileştirmesinden kaynaklanıyor olması pek olası görünmüyor
Yazının sonundaki iddiada olduğu gibi, hızdan çok doğruluk önemli demek bugün için doğru olabilir
Ancak OpenAI–Cerebras iş birliğiyle Codex-5.3 gibi büyük modeller doğrudan çip üzerinde çalıştırılabilirse,
hem hızlı hem doğru modeller mümkün olur ve müşteri destek işlerinin yerini alabilecek seviyeye gelebilir
Gelecekte LLM'e özel silikonlar ortaya çıkarsa çok daha verimli bir döneme girilebilir
Batch için bekletme sorunu continuous batching ile zaten çözülmüş durumda
Bu teknoloji sayesinde Claude Code uygun maliyetle sunulabildi
İlgili yazı
Otobüs benzetmesi biraz garip. Gerçekte fast mode, batch içinde daha büyük bir pay alarak iş hacmini artıran bir yöntem
Anthropic'in trafik ölçeğine bakılırsa batch'ler neredeyse anında doluyor olmalı
ChatGPT'nin mesaj gönderilir gönderilmez neden hemen yanıt verdiği merak ediliyor
Batch beklemesine gerek olmamasının nedeni, ya trafiğin aşırı yüksek olması ya da girdinin WebSocket üzerinden GPU'ya önceden stream edilmesi olabilir
SRAM ile HBM arasındaki fark sık sık karıştırılıyor
HBM, DRAM tabanlıdır; kapasitesi büyüktür ama daha yavaştır, SRAM ise çok daha hızlı ama pahalıdır
Cerebras tek çipe entegre ettiği 44GB dev SRAM ile aşırı yüksek hız elde eder
Ancak tasarım basit olmadığı için gerçek performans çeşitli etkenlere bağlıdır
OpenAI ya modeli 44GB'a sığacak şekilde tasarlamış olabilir ya da birden çok çipi zincir biçiminde bağlamış olabilir
Gerçek zamanlı sesli yapay zekada temel unsur gecikmedir(latency)
İnsanlar 800ms üzerindeki beklemeyi tuhaf bulduğu için, LLM çıkarımına ayrılabilecek süre yaklaşık 400~500ms'dir
Sonnet hızıyla (80 tok/s) tek bir cümle bile zor, ama Cerebras veya Groq hızında (1000 tok/s üzeri) 400'den fazla token mümkün
Bu yüzden küçük modelleri alana özel ince ayarlamak, büyük modellerden daha verimli olabilir
Birden çok küçük ajanı birleştiren council yaklaşımı, hem hız hem kaliteyi yakalamanın bir yoludur
Ayrıca speculative decoding ile sık kullanılan yanıtlar önceden tahmin edilip TTS hazırlanırsa, konuşmaların %60'ında 200ms altında yanıt mümkün olabilir