Claude Code Pro Max 5x planında, makul kullanımda bile kotanın 1,5 saatte tükenmesi sorunu
(github.com/anthropics)- Pro Max 5x (1M context) planında, orta düzeyde Soru-Cevap ve geliştirme çalışmasıyla bile 1,5 saat içinde token limitinin aşılması yaşanıyor
- Neden olarak,
cache_readtokenlarının tam oranla (1.0x) hesaplandığı bir hata gösteriliyor; bu da önbellekleme etkisini ortadan kaldırıp hızlı tüketime yol açıyor - Arka plan oturumlarının otomatik çağrılması, otomatik sıkıştırma (auto-compact) ve büyük context girdileri birlikte tüketim hızını artırıyor
- Topluluk, cache TTL kısalması (1 saat→5 dakika) ve cache invalidation (cache busting) olgusunu temel neden olarak analiz ediyor
- Anthropic, varsayılan context küçültme (400k), UX iyileştirmeleri ve etkin olmayan çağrıların optimizasyonu üzerinde çalışıyor ve kullanıcı geri bildirimleri topluyor
Pro Max 5x planında hızlı kota tükenmesi sorunu
- Pro Max 5x (claude-opus-4-6, 1M context) planında, orta düzey Soru-Cevap ve hafif geliştirme ile bile 1,5 saat içinde kotanın tükenmesi durumunun raporlandığı belirtiliyor
- Önceki 5 saatlik yoğun geliştirmede tüketim normalken, sıfırlamanın ardından hızlı tüketim ortaya çıktı
- Ortam: Claude Code CLI on WSL2, tek oturumda (2 kez otomatik sıkıştırma) gerçekleşti
- Başlıca neden olarak
cache_readtokenlarının tam oranla (1.0x) hesaplandığı hata gösteriliyor- Normalde
cache_read1/10 oranında hesaplanmalı; aksi halde önbelleklemenin faydası ortadan kalkıyor - Token kullanımı, oturum günlüklerindeki (
~/.claude/projects/.../*.jsonl)usagenesnesi üzerinden analiz edildi
- Normalde
- Arka plan oturumlarının otomatik çağrılması, otomatik sıkıştırmanın (auto-compact) yüksek maliyetli işlemleri ve 1M context window’un büyük girdileri birlikte etki ederek tüketim hızını artırıyor
- Topluluk analizine göre bazı kullanıcılar, cache TTL kısalmasını (1 saat→5 dakika) ve cache invalidation (cache busting) olgusunu ana neden olarak işaret ediyor
- Anthropic ekibi, varsayılan context küçültme (400k), UX iyileştirmeleri ve etkin olmayan çağrıların optimizasyonu üzerinde çalışıyor; ayrıca kullanıcı geri bildirimleriyle ek veri toplamayı istiyor
Ölçülen token tüketimi
-
Pencere 1 (15:00–20:00, 5 saat, yoğun geliştirme)
- 2.715 API çağrısı, 1.044M Cache read, 16.8M Cache create, 1.15M çıktı tokenı
- Etkin giriş (1/10 oranı uygulandığında): 121.8M token
- Express sunucusu + iOS uygulaması geliştirme, graphify pipeline, SPEC tabanlı çoklu ajan koordinasyonu yapıldı
-
Pencere 2 (20:00–21:30, 1,5 saat, orta düzey kullanım)
- Ana oturum (vibehq): 222 API çağrısı, 23.2M Cache read, 1.4M Cache create, 91k çıktı
- Arka plan oturumları (
token-analysis,career-opsdahil): toplam 691 çağrı, 103.9M Cache read, 387k çıktı - Toplam 13.1M etkin token (1/10 oranı uygulanırsa) → normalde kota aşımı olmamalı
- Gerçekte ise 105.7M token (1.0x hesaplanırsa) → saatte 70.5M düzeyinde; bu da kota tükenmesiyle örtüşüyor
Başlıca sorunların özeti
-
1. Cache read tokenlarının ücret/kota hesabı hatası
- Beklenen:
cache_read1/10 oranında hesaplanmalı - Gerçekte: tam oranla hesaplanıyor ve önbellekleme etkisi geçersiz hale geliyor
- 1M context ortamında çağrı başına 100~960k token gönderildiğinden, 200’den fazla çağrıda dakikalar içinde tükenme görülebiliyor
- Beklenen:
-
2. Arka plan oturumlarının paylaşılan kotayı tüketmesi
- Etkin olmayan oturumlar (
token-analysis,career-opsvb.) da otomatik sıkıştırma ve son işlem çağrılarıyla paylaşılan kotayı sürekli tüketiyor
- Etkin olmayan oturumlar (
-
3. Otomatik sıkıştırmanın (auto-compact) yüksek maliyetli çağrıları
- Sıkıştırma öncesi tüm context (~966k token)
cache_creationolarak gönderiliyor; böylece en pahalı çağrı otomatik olarak oluşuyor
- Sıkıştırma öncesi tüm context (~966k token)
-
4. 1M context window’un yan etkileri
- Büyük context, çağrı başına token sayısını keskin şekilde artırarak kota tüketim hızını hızlandırıyor
Yeniden üretme adımları
- Pro Max 5x planında Opus modeliyle Claude Code’u çalıştırın
~/.claude/rules/içine yaklaşık 30 kural dosyası ekleyin (19k token ek yük)- Dosya okuma, build, test gibi araç ağırlıklı işler yapın
/contextkomutuyla context artışını doğrulayın- 200~300 çağrıdan sonra kotanın hızla düştüğünü doğrulayın
- Başka terminallerde 2~3 oturum açık tutun
- Sıfırlamadan sonra da kısa sürede kotanın tükendiğini doğrulayın
Beklenen davranış ile gerçek davranışın karşılaştırması
-
Beklenen:
cache_read1/10 oranında hesaplanmalı- Etkin olmayan oturumlar minimum düzeyde tüketmeli
- Otomatik sıkıştırma aşırı tüketime yol açmamalı
- Orta düzey kullanımda 2~3 saat dayanmalı
-
Gerçek:
- 1,5 saat içinde tükeniyor
- Arka plan oturumları tüketimin %78’ini oluşturuyor
- Toplam 105.7M token gönderimi nedeniyle
cache_read’in tam oranla hesaplandığı tahmin ediliyor
İyileştirme önerileri
cache_readhesaplama yöntemini netleştirme — dokümantasyonda gerçek ücret/kota hesap oranını açıkça belirtme- Etkin token bazlı limit —
cache_readiçin 1/10 oranının uygulanacak şekilde düzeltilmesi - Oturum boşta kalma tespiti — etkin olmayan oturumların otomatik çağrılarının engellenmesi veya uyarı gösterilmesi
- Gerçek zamanlı token tüketimi görünürlüğü —
cache_read,cache_create, giriş ve çıkış bazında kullanımın gösterilmesi - Context tabanlı maliyet tahmini — işlem öncesinde beklenen token maliyetinin gösterilmesi
Topluluk analizi ve tartışmalar
-
cnighswonger
claude-code-cache-fixinterceptor ile 24 saat boyunca 1.500 çağrı verisi topladı- Üç hipotezi (
cache_read0.0x, 0.1x, 1.0x) test etti; sonuçta yalnızca 0.0x modeli 5 saatlik pencerede tutarlı sonuç verdi (CV %34,4) - Sonuç:
cache_read, pratikte kota üzerinde neredeyse etkisiz; cache normal çalışıyor - Ancak tek hesap verisi olduğu için ek doğrulama gerekiyor
-
henu-wang
- Cache TTL’nin 1 saatten 5 dakikaya düşürüldüğü regression sonrasında, oturum her duraklatıldığında
cache_createoluşuyor ve 12,5 kat daha yüksek maliyet yaratıyor - Context uzadıkça maliyet doğrusal olmayan biçimde artıyor
- Geçici çözüm olarak kısa oturumlar tutmayı,
/compactkomutunu aktif kullanmayı ve temel context’iCLAUDE.mdiçine önceden yüklemeyi öneriyor
- Cache TTL’nin 1 saatten 5 dakikaya düşürüldüğü regression sonrasında, oturum her duraklatıldığında
-
bcherny (Anthropic ekibi)
- 1M context window kullanıldığında prompt cache miss’in yüksek maliyetli olduğunu kabul etti
- UX iyileştirmeleri (uzun oturum yeniden başlatıldığında
/clearyönlendirmesi) ve varsayılan context’in 400k’ye düşürülmesi seçeneklerini test ediyor - Çoklu ajan ve eklenti kullanımında etkin olmayan işlerin tokenları aşırı tükettiğini doğruladı; otomatik temizleme ve zamanlama iyileştirmeleri üzerinde çalışıyor
-
wadabum
- Yeni oturumlarda cache’in hiç isabet etmediği bir bug’a dikkat çekti (#47098, #47107)
git statustabanlı sistem prompt’u ileCLAUDE.mdblokları her oturumda değiştiği için cache invalidation (cache busting) oluşuyor- cnighswonger, interceptor’un bazı sıralama kararlılığı düzeltmeleri yaptığını, ancak
git-statussorununun ayrıca çözülmesi gerektiğini söyledi
Topluluk önerilerinin özeti
- RockyMM: Oturum limite ulaştığında otomatik özetleme sonrası devam etmeyi önersin ve TTL 10 dakikaya düşürülsün
- mikebutash: Pro planında 5 saatte yalnızca 2 prompt mümkün olduğunu bildirdi; v2.1.81 sürümüne geri dönüp cache-fix kurunca 3~4 kat iyileşme gördüğünü belirtti
- wutlu: Her iş için oturumu sıfırlayarak sorunu hafifletti
- dprkh: Debug mode skill (
Skill.md) paylaşarak nedenin belirlenmesine katkı sundu
Sonuç
- Pro Max 5x planındaki hızlı kota tükenmesi sorununun; cache davranışı, TTL regression’ı, context şişmesi ve arka plan çağrılarının birleşik etkisinden kaynaklandığı görülüyor
- Topluluk, asıl nedenin
cache_readhesaplama hatasından çok cache invalidation ve TTL kısalması olduğu yönünde analiz sunuyor - Anthropic ekibi, varsayılan context’i küçültme, cache UX’ini iyileştirme ve etkin olmayan çağrıları optimize etme üzerinde çalışıyor; ayrıca kullanıcı geri bildirimleri (
/feedback) ile ek veri toplamayı istiyor
2 yorum
Kalite açısından bakınca bunun yerini alacak bir şey de yok.
Basit bir yamayla biraz daha kullanılabilse güzel olurdu.
Hacker News görüşleri
Claude Code ekibinden Boris benim. Son dönemde bildirilen sorunları incelediğimizde, başlıca iki neden gördük
CLAUDE_CODE_AUTO_COMPACT_WINDOW=400000 claudekomutunu kullanabilirsinizSorun yaşayan kullanıcılar
/feedbackkomutuyla geri bildirim gönderirse hata ayıklamaya yardımcı olur/clearbildirimi çözüm değil. Cache’i temizleyince sonuçta yeniden kurmanız gerekiyor, yani maliyet aynı. UX ile kullanıcıyı daha küçük context’e yönlendirmek hizmet kalitesini düşürmek demek. Sorun maliyetse fiyatı ya da mimariyi düzeltmeniz gerekirSon zamanlarda Claude belirgin şekilde yavaş ve verimsiz hale geldi. Dosyaları özellikle belirtsem bile 5 dakikadan uzun süre keşif döngüsüne giriyor ve oturum sınırına hızla ulaşıyor. Günde sadece üç kez kullansam haftalık limitin %25’i gidiyor. Bu yüzden $100’lık Codex planına geçtim; doğruluk ve cömertlik açısından çok daha iyi. Yalnız Codex’in üslubu rahatsız ettiği için Agents.md’ye ayrıca talimat ekledim. Arayüz hissi olarak eski Claude Code daha iyiydi ama backend debugging ve karmaşık problem çözme tarafında Codex üstün. Şu anda Codex ile Cursor’un $20 planını karşılaştırmayı öneririm
Issue’lara göz atınca Anthropic’in ticket’ları neden hızlı kapattığını anladım. Çoğu AI tarafından üretilmiş gürültü gibi görünüyor. Benim çözümüm şuydu
Anthropic’in 1M modeli zorla uygulaması en büyük rahatsızlık kaynağım
/model opusveya/model sonnetkomutlarıyla 1M modeli kapatabilirsinizArtık sübvansiyon döneminin sonu yaklaşıyor gibi geliyor. Google Gemini topluluğunda da son dönemde kota daralması nedeniyle şikâyetler patlamış durumda (issue linki). Ben de sonunda Kiro IDE ile Codex CLI kombinasyonuna geçtim ve memnunum
Temel nedeni işaret eden issue’nun “Not planned” olarak kapatılmış olması tedirgin edici
2.1.34 sürümüne rollback yaptıktan sonra kota ve cache sorunlarının çoğu çözüldü.
~/.claude/settings.jsondosyasına"effortLevel": "high","CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING": 1gibi ayarlar ekledim ve diğer sürümleri sildim.Adaptive thinking hâlâ tam olgunlaşmış değil ama ileride iyileşirse faydalı olabilir. Yine de Codex’e geçmeyi düşünüyorum
~/.bashrciçineCLAUDE_CODE_MAX_OUTPUT_TOKENS=64000,DISABLE_AUTOUPDATER=1gibi ayarlar ekledimDaha alt modellerde de benzer sorunlar vardı. Adil bir ilişki şeffaf ölçümle başlar diye düşünüyorum. Bu ay aboneliği iptal edeceğim
Bu yıl vergi beyanımı AI agent’larla denedim. Opus 4.6, Codex 5.4 ve Antigravity 3.1’i ayrı ayrı $20 planla kullandım.
Codex bunu 12 dakikada kusursuz yaptı, Antigravity bir sayfayı atladı ama hızla düzeltildi. Claude Code ise kullanım limiti aşıldığı için durdu ve yeniden denemeden sonra da hata payı vardı. Beklentimin altında kaldı
Reddit’te paylaşılan güncelleme duyurusu sonrasında Claude, günlük kodlama için kullanılamayacak kadar değişti. Pro hesap kredisi bir saat içinde bitince Gemini ya da ChatGPT’ye geri döndüm
Sonuç olarak Anthropic’in token ücretlendirme yapısı genel kullanıcıların aleyhine tasarlanmış gibi görünüyor. Gerçekte kullanınca ne kadar çok para istediklerini hemen hissediyorsunuz