13 puan yazan xguru 2026-02-08 | 3 yorum | WhatsApp'ta paylaş
  • Aynı Opus 4.6 modeli kullanılıyor, ancak API yapılandırması değiştirilerek gecikme en aza indiriliyor
  • Hızlı yineleme, canlı hata ayıklama gibi zamana duyarlı etkileşimli işler için optimize edildi
  • CLI veya VS Code uzantısında /fast yazarak aç/kapat geçişi yapılabiliyor ya da kullanıcı ayar dosyasında "fastMode": true ile sürekli etkinleştirilebiliyor
  • Etkinleştirildiğinde otomatik olarak Opus 4.6'ya geçiliyor ve durum mesajı ile simgesi gösteriliyor
  • Fast Mode'da standart Opus 4.6'ya kıyasla token birim fiyatı artıyor
    • 200K altı bağlamda giriş için $30/MTok, çıkış için $150/MTok uygulanıyor (standartta giriş $5, çıkış $25)
    • 200K üzeri bağlamda giriş için $60/MTok, çıkış için $225/MTok uygulanıyor (standartta giriş $10, çıkış $37.5)
    • 16 Şubat'a kadar %50 indirim uygulanıyor
  • Fast Mode'a özel ayrı bir rate limit uygulanıyor; limit aşıldığında veya kredi tükendiğinde otomatik olarak standart moda geri düşüyor
  • Fast Mode, araştırma önizlemesi olarak sunuluyor; özellikler ve fiyat değişebilir

3 yorum

 
GN⁺ 2026-02-09
Hacker News görüşleri
  • Hız 2,5 kat artmış ama fiyat 6 kat olmuş
    Oldukça pahalı bir prim. Özellikle Gemini 3 Pro, Opus 4.6'ya kıyasla saniye başına token hızında 1,8 kat önde, fiyatı ise yaklaşık 0,45 kat seviyesinde
    Ancak kodlama performansı daha düşük ve Gemini CLI'ın ajan yeteneği hâlâ Claude Code kadar iyi değil

    • Token başına 6 kat fiyat demek, saniye bazında 15 kat fiyat demek. Üstelik bu API fiyatı; abonelik planları çok daha ucuz
      Sonuçta büyük müşterilerin (whale) hızlı para harcamasını sağlayan ilginç bir yapı
    • Gemini, frontend işleri için oldukça iyi
    • Gemini CLI yerine OpenCode da kullanılabilir
  • Bir yavaş modun (slow-mode) olması güzel olurdu. Düşük maliyetli spot GPU ile işleri zamanlayıp çalıştırmayı sağlayan bir özellikten bahsediyorum
    Ben sık sık öğle arasında ya da işten çıkmadan önce süreç başlatıyorum; anında çalışması gerekmiyor. Boştaki GPU'larda ucuza çalışması yeterli

    • Batches API, standart API'ye göre %50 ücretle çalışıyor
    • OpenAI da geçmişte benzer bir toplu işleme özelliği sunmuştu
    • Ben de aynı fikirdeyim. Gece %50 ücretle çalıştırabilmek güzel olurdu. Ama Claude Code'a henüz entegre edilmiş değil
    • Zaten indirimli MAX planı fiilen yavaş mod gibi çalışıyor
    • Zaman kritik değilse GPU yerine CPU/RAM üzerinde çalıştırmak da bir seçenek
  • Bu modda abonelik planındaki kalan kullanım değerlendirilemiyor
    Hızlı mod kullanımı her zaman ayrı ücretlendiriliyor ve plana dahil token'lardan bağımsız olarak ilk token'dan itibaren ek ücret alınıyor
    Şu anda 50 $'lık ücretsiz ek kullanım kampanyası var

    • Sonuçta neredeyse hiç işe yaramıyor. Claude Max kullansan bile TDD sırasında kullanımı yönetmek gerekiyor
      ccusage aracında bakınca API tarafında günlük 200 $'a kadar çıkabiliyor. 6 kat ücrette 50 $ 20 dakikada eriyip gider
  • Bana göre bu özellik çok da faydalı olmayacak
    Darboğaz model değil, LLM'in ürettiği kodu benim anlama hızım

    • Üretilen kodu gerçekten dikkatli incelemeyen çok insan var. Zaman ilginç bir yere gidiyor
    • Hız yeterince artarsa kod okumaktan çok soru sorarak kullanırdım ama henüz o seviyede değil
    • Kodu biraz ‘hissiyatla’ yazanlar, anlamaktan çok sonuca odaklanıyor
    • Test harness'i ve doğrulama süreçlerini iyi kurarsan koda doğrudan bakmadan da güvenebilirsin
  • “Fast mode'u ne zaman kullanmalı” belgesine bakınca,

    • uzun süre çalışan ajanlar ya da arka plan işleri için normal mod
    • insanın dahil olduğu senaryolar için hızlı mod
      gibi bir ayrım amaçlanmış görünüyor. Ama ücret yapısının makul olup olmadığı şüpheli
    • Opus'un API fiyatı zaten pahalı, dolayısıyla sonuçta yüksek fiyatlı bir hizmet olarak kalacak gibi
      Fiyat/performansa önem verenler bunu paralel çalıştırmayla çözer
  • Benim genel iş akışım planlama aşaması ve uygulama aşaması olarak ayrılıyor
    Hızlı mod en çok planlama aşamasında faydalı olabilir gibi görünüyor
    Sadece “konteksti sıfırlayıp hızlı modda çalıştır” değil,
    “konteksti sıfırlayıp normal hızda çalıştır” seçeneği de olmalı
    Keşif odaklı ajanlar yavaş olabilir ama planı hızlı yineleyebilmek çok daha verimli olur

  • Normal Pro hesabı aslında fiilen yavaş mod
    Ben şu anda Kimi2.5 CLI test ediyorum; hem hızlı hem de web arayüzü sunduğu için VPN ortamında uzaktan da kullanılabiliyor

  • Artık Hacker News'i doğrudan Claude pazarlama blogu olarak CNAME'lemek gerekebilir

    • O zaman simonw'nin kendi tanıtım yazılarını kaçırırız
    • Aslında OpenAI ile ilgili yazılar çok daha fazla. Belki adını doğrudan AINews yapmak daha doğru olur
  • Hız artışının nedenini merak ediyorum. Sadece öncelik ayarlaması ile açıklanması zor görünüyor
    Yeni donanım (Groq, Cerebras vb.) olabilir. Sadece bazı bulutlarda sunuluyor olması bunu mümkün kılıyor
    Gelecekte LLM sağlayıcılarının “hız vs zekâ” ayrımını fiyatlandırıp fiyatlandırmayacağını da merak ediyorum

    • GPU üzerinde toplu işleme ve çoklu akış artırılarak token işleme hacmi yükseltiliyor
      Batch büyüdükçe paralellik artıyor ama tekil isteklerin hızı düşüyor.
      SemiAnalysis InferenceMAX™ grafiği, GPU başına hacim ile token hızı arasında bir Pareto eğrisi olduğunu gösteriyor
    • Donanım yükseltmesi ya da trafik önceliklendirmesinin yanında, batch window'u küçültmek veya KV cache'i GPU üzerinde tutmak gibi farklı ayarlar da mümkün
    • Sadece kuyruğu atlayan öncelik tabanlı bir model de olabilir. Çünkü daha çok para kazanmanın en kolay yolu bu
    • Önce iç kullanım için geliştirilmiş de olabilir. Gerçekte sadece basit bir öncelik ayarlamasıdır ama dış müşteri sayısının az olacağını öngörmüş olabilirler
    • Ya da Nvidia GB300 (Blackwell) gibi yeni nesil GPU'lar kullanıyor olabilir
  • “Claude bir C derleyicisi yaptı” yazısını görünce, Anthropic ve OpenAI gibi laboratuvarların kurum içi çıkarım hızını merak etmeye başladım
    Çıkarım ne kadar hızlıysa yazılım pazarına hâkim olmak o kadar kolay olur
    Anthropic 2,5 kat hız artışını açıkladıysa, içeride 5 ila 10 kat daha hızlı bir mod kullanıyor da olabilir
    Ajanların birbiriyle pazarlık yaptığı bir gelecekte en hızlı hesaplama gücü kazanan olacak

    • Anthropic, dahili olarak kullandığı 2,5 kat hızlı modu resmî API olarak yayımladığını söyledi
      Bazı sunucular, tekil istek hızını artırmak için toplam işleme kapasitesinden fedakârlık etmiş olabilir.
      Büyük olasılıkla yeni nesil donanımda çalışıyordur
    • “10 kat performansı saklıyorlar” iddiası pek mantıklı değil. SaaS şirketlerinin pazar rekabeti içindeyken böyle bir lüksü olmaz
      Gerçekte olan şey büyük ihtimalle paralelleştirme ile 2,5 kat hız artışı sağlanmış olması
    • Temel hızı bilerek yavaşlatıp insanları hızlı mod için para ödemeye iten bir tür hız rehini modeli gibi de görünüyor
 
kimjoin2 2026-02-09

"Bir sonraki görev için hangisi iyi olur?"
Tek seferde 3.46$ ek ücret alınıyor ve abonelik modeliyle karşılanmıyor gibi görünüyor.
Kısa süre önce verilen 50$ da galiba bunu deneyeyim diye verilmişti lol

 
elbum 2026-02-08

Artık yapay zeka giderek sadece zenginlerin kullandığı bir şeye dönüşüyor ...