İki farklı hızlı LLM çıkarım yöntemi

(seangoedecke.com)

6 puan yazan GN⁺ 2026-02-16 | 1 yorum | WhatsApp'ta paylaş

Anthropic ve OpenAI, en güçlü kodlama modelleri için kendi 'fast mode' seçeneklerini duyurarak çıkarım hızını büyük ölçüde artırdı
Anthropic, aynı Opus 4.6 modelini kullanmaya devam ederken batch boyutunu küçülterek 2,5 kata kadar daha hızlı token işleme hızı sunuyor
OpenAI ise Cerebras çipleri tabanlı yeni model GPT-5.3-Codex-Spark'ı devreye alarak saniyede 1000'den fazla token üretiyor, ancak doğruluk seviyesi daha düşük
Bu iki yaklaşım, sırasıyla düşük batch'li çıkarım ile çok büyük çip tabanlı in-memory çıkarım gibi tamamen farklı teknik ilkeler kullanıyor
Hızlı çıkarım teknik açıdan etkileyici olsa da, hızdan çok doğruluğun daha önemli olduğu ve ekonomik değer ile kullanım yararının hâlâ belirsiz olduğu belirtiliyor

Anthropic'in Fast Mode yapısı

Anthropic'in yöntemi, batch boyutunu küçülterek gecikmeyi en aza indirmeye dayanıyor
- GPU'lardaki temel darboğaz bellek aktarımıdır; birden fazla kullanıcının isteğini birlikte işleyen batching, throughput'u artırırken bekleme süresini yükseltir
- Fast mode, kullanıcı istek gönderir göndermez hemen hareket eden bir 'anında kalkan otobüs' gibidir
Bu yöntem, 6 kat daha yüksek maliyet karşılığında 2,5 kat daha yüksek hız sunuyor
- Batch bekleme süresi ortadan kalktığı için ilk token'a kadar olan gecikme azalıyor
- Ancak GPU'nun toplam throughput'u düşüyor
Bazı kullanıcılar, ilk token'dan sonra bekleme süresinin zaten çok büyük olmadığını ve küçük batch'in etkisinin daha çok hesaplama miktarının azalmasına bağlı yürütme hızı artışına benzediğini belirtti

OpenAI'nin Fast Mode yapısı

OpenAI, Cerebras çiplerini kullanarak tamamen farklı bir yaklaşım benimsiyor
- Mevcut model yerine GPT-5.3-Codex-Spark adlı hafifletilmiş (distilled) bir model kullanılıyor
- Spark, orijinal modele göre daha az gelişmiş olsa da 15 kattan fazla daha hızlı çıkarım hızı sağlıyor
Cerebras çipi, 70 inç kare büyüklüğünde dev bir wafer-scale çip ve içinde 44GB SRAM barındırıyor
- Tüm modeli SRAM'e yükleyerek harici belleğe erişmeden in-memory çıkarım gerçekleştiriyor
- Bu, GPU'lardaki onlarca MB düzeyindeki SRAM'e kıyasla büyük bir fark yaratıyor
Spark modelinin birden fazla Cerebras çipi arasında sharding ile bölünerek yerleştirildiği tahmin ediliyor ve hız artışındaki temel etkenin bu yapı olduğu düşünülüyor

Teknik karşılaştırma ve değerlendirme

Anthropic, mevcut modeli aynen koruyup yalnızca batch politikasını ayarlıyor
OpenAI ise yeni bir donanım mimarisi ile model tasarımını birleştirerek daha köklü bir performans artışı elde ediyor
Modeli Cerebras çipleri üzerinde çalıştırmak karmaşık bir teknik zorluk, Spark modelini eğitmek de aynı şekilde kolay bir iş değil
İki şirketin yaklaşımı, aynı hız artışı hedefini farklı teknik yollarla gerçekleştiren örnekler; OpenAI'nin yöntemi teknik açıdan daha etkileyici görünüyor

Hızlı çıkarımın anlamı ve sınırları

İki şirketin açıklamalarının art arda gelmesi, 'hızlı yapay zeka çıkarımı'nın yeni rekabet ekseni hâline geldiği izlenimini verse de, gerçekte bunun stratejik bir karşılık verme niteliği ağır basıyor
- Anthropic'in, OpenAI'nin duyurusuna hızlı biçimde yanıt verdiği anlaşılıyor
- OpenAI ise Cerebras iş birliğinin deneysel sonuçlarını paylaşma aşamasında
Hızlı ama daha az gelişmiş modellerin gerçek kullanımda sınırları bulunuyor
- Kullanıcılar model hatalarını düzeltmek için daha fazla zaman harcadığından, hızdan çok doğruluk önemli
Yine de bu tür 'düşük doğruluklu, yüksek hızlı çıkarım' modellerinin, yapay zeka sistemlerinde alt bileşen olarak kullanılma ihtimali var
- Örnek: Claude Code içinde Haiku kullanım senaryoları, OpenAI'nin Spark'ı içselleştirme olasılığı

Topluluk tartışmaları ve ek gözlemler

Hacker News'te batching'in performans özellikleri ile çipler arası iletişim darboğazı üzerine çeşitli görüşler paylaşıldı
- Bazıları continuous batching sayesinde bekleme süresinin neredeyse ortadan kalktığını savundu
- Diğerleri ise çipler arası bağlantıların çıkarım hızını etkilediğini söyleyerek buna itiraz etti
Batch boyutu ile gecikme arasındaki ödünleşim hâlâ geçerliliğini koruyor
Anthropic, ilk token gecikmesinin hâlâ yavaş olabileceğini açıkça belirtirken, OpenAI bunu websocket tabanlı kalıcı bağlantı ile en aza indirmeye çalışıyor
Genel olarak hızlı LLM çıkarımının yapısı karmaşık ve basit bir modelle açıklanması zor

1 yorum

GN⁺ 2026-02-16

Hacker News görüşleri

İnsanlar Anthropic'in fast mode özelliğini yanlış anlıyor. Muhtemelen adı yüzünden.
Aslında bu, daha yüksek maliyetli olan ve zor problemler üzerinde daha akıllıca çalışan bir yöntem.
Bu makaledeki parallel distill and refine yaklaşımı buna tam olarak uyuyor.
Birden çok yolu paralel olarak üretip ardından hızla damıtıp(distill) rafine ederek sonucu veren bir yapı.
Bu yöntem daha fazla token tüketir, ancak daha hızlı ve daha akıllı çıktılar mümkün kılar
speculative decoding kalite artışıyla ilgili değildir ve basit batching yalnızca hızı artırırken maliyeti düşürür
Gemini Deepthink ve GPT-5.2-pro da benzer paralel çıkarım yapıyor, ancak tüm yolları sonuna kadar hesapladıktan sonra sonucu rafine ediyor
- Anthropic'in resmi dokümantasyonuna göre fast mode, Opus 4.6 modelinin aynısıdır ve yalnızca API ayarı farklı olduğu için hızı önceliklendirir. Kalite aynıdır
Cerebras çiplerinin 44GB SRAM ile tüm modeli belleğe alıp çıkarım yapma fikri ilgi çekici
GPT-5.3-Codex-Spark'ın boyutu, tek bir çip belleğinden çok, bağlanabilir çip sayısıyla sınırlıdır
Cerebras 40B'den büyük modelleri de daha hızlı desteklediği için, Spark'ın GLM 4.7'ye (355B parametre, 32B aktif) daha yakın olma ihtimali yüksek
Cerebras fiyatlandırma sayfasına bakın
- Model shard edilirse hız ciddi biçimde düşer. wafer-scale çiplerin avantajı çip üstü bellek bant genişliğidir; bundan vazgeçilirse anlamı kalmaz
  Groq, TPU ve Nvidia çözümleri enerji verimliliği açısından daha iyidir
- Cerebras'ın 40B'den büyük modelleri daha hızlı çalıştırabilmesi düşünüldüğünde, ana yazıdaki iddiaya güvenmek zor
- Çipler seri bağlanırsa yalnızca gecikme(latency) artar, iş hacmi(throughput) azalmaz
- Groq çiplerinde olduğu gibi SRAM küçük olsa bile büyük ölçekli modeller çalıştırılabilir. Dolayısıyla çip bağlantısı doğrudan hız düşüşü anlamına gelmez
Anthropic'in fast isteklerini en yeni donanıma yönlendirme ihtimali yüksek
TPU, GPU gibi farklı nesillerden ekipman çalıştırıyor ve fast mode'un yalnızca en hızlı ekipmanda işleneceği tahmin ediliyor
- GB200'ün bellek bant genişliği H100'den 2,4 kat daha hızlı. Bu yüzden fast mode büyük olasılıkla sadece donanım farkıdır
  speculative decoding gibi teknikler zaten kullanıldığı için, batching iyileştirmesinden kaynaklanıyor olması pek olası görünmüyor
Yazının sonundaki iddiada olduğu gibi, hızdan çok doğruluk önemli demek bugün için doğru olabilir
Ancak OpenAI–Cerebras iş birliğiyle Codex-5.3 gibi büyük modeller doğrudan çip üzerinde çalıştırılabilirse,
hem hızlı hem doğru modeller mümkün olur ve müşteri destek işlerinin yerini alabilecek seviyeye gelebilir
- Ancak 40GB SRAM ile 5~7TB sınıfı modelleri çalıştırmak için birkaç megawatt düzeyinde güç gerekir. Cerebras'ın güç tüketimi çok yüksektir
  Gelecekte LLM'e özel silikonlar ortaya çıkarsa çok daha verimli bir döneme girilebilir
- Hâlâ AI üretimi verilerle eğitimde kalite düşüşü sorunu çözülmediyse, modelleri güncellemek giderek daha zor olacaktır
Batch için bekletme sorunu continuous batching ile zaten çözülmüş durumda
Bu teknoloji sayesinde Claude Code uygun maliyetle sunulabildi
İlgili yazı
Otobüs benzetmesi biraz garip. Gerçekte fast mode, batch içinde daha büyük bir pay alarak iş hacmini artıran bir yöntem
Anthropic'in trafik ölçeğine bakılırsa batch'ler neredeyse anında doluyor olmalı
ChatGPT'nin mesaj gönderilir gönderilmez neden hemen yanıt verdiği merak ediliyor
Batch beklemesine gerek olmamasının nedeni, ya trafiğin aşırı yüksek olması ya da girdinin WebSocket üzerinden GPU'ya önceden stream edilmesi olabilir
SRAM ile HBM arasındaki fark sık sık karıştırılıyor
HBM, DRAM tabanlıdır; kapasitesi büyüktür ama daha yavaştır, SRAM ise çok daha hızlı ama pahalıdır
Cerebras tek çipe entegre ettiği 44GB dev SRAM ile aşırı yüksek hız elde eder
Ancak tasarım basit olmadığı için gerçek performans çeşitli etkenlere bağlıdır
- Nvidia'nın 80GB HBM'i harici bellektir, Cerebras'ın 44GB'ı ise dahili SRAM'dir
  OpenAI ya modeli 44GB'a sığacak şekilde tasarlamış olabilir ya da birden çok çipi zincir biçiminde bağlamış olabilir
Gerçek zamanlı sesli yapay zekada temel unsur gecikmedir(latency)
İnsanlar 800ms üzerindeki beklemeyi tuhaf bulduğu için, LLM çıkarımına ayrılabilecek süre yaklaşık 400~500ms'dir
Sonnet hızıyla (80 tok/s) tek bir cümle bile zor, ama Cerebras veya Groq hızında (1000 tok/s üzeri) 400'den fazla token mümkün
Bu yüzden küçük modelleri alana özel ince ayarlamak, büyük modellerden daha verimli olabilir
Birden çok küçük ajanı birleştiren council yaklaşımı, hem hız hem kaliteyi yakalamanın bir yoludur
Ayrıca speculative decoding ile sık kullanılan yanıtlar önceden tahmin edilip TTS hazırlanırsa, konuşmaların %60'ında 200ms altında yanıt mümkün olabilir
- OpenAI, ses modellerine odaklanan tek büyük araştırma laboratuvarı olduğu için, bu yönde daha da ilerlemesi muhtemel

İki farklı hızlı LLM çıkarım yöntemi

Anthropic'in Fast Mode yapısı

OpenAI'nin Fast Mode yapısı

Teknik karşılaştırma ve değerlendirme

Hızlı çıkarımın anlamı ve sınırları

Topluluk tartışmaları ve ek gözlemler

İlgili okumalar

1 yorum

Hacker News görüşleri