Anthropic, 6 Mart 2026'da önbellek TTL'sini 1 saatten 5 dakikaya düşürdü

(github.com/anthropics)

1 puan yazan GN⁺ 17 일 전 | 1 yorum | WhatsApp'ta paylaş

2026 Mart ayının başında Claude Code'un önbellek TTL'sinin 1 saatten 5 dakikaya değiştirildiği ve aynı kullanım kalıplarında bile sunucu tarafı ayar farkından kaynaklanan değişimin doğrulandığı görüldü
TTL'nin kısaltılmasıyla önbelleği yeniden oluşturma maliyeti %20~32 arttı ve uzun süreli oturumlarda kota tüketimi keskin biçimde yükseldi
Analiz sonucunda, modele göre yaklaşık %17 ek maliyet oluştuğu ve bazı kullanıcıların 5 saatlik kota sınırına ulaşmaya başladığı görüldü
Anthropic, 6 Mart'taki değişikliğin kasıtlı bir adım olduğunu ve istek bazında farklı TTL uygulayarak toplam maliyeti düşürmeyi hedeflediğini açıkladı
Topluluk, maliyet artışı, şeffaflık eksikliği ve önceden duyuru yapılmamasını eleştirerek TTL ayarlarında kullanıcıya seçim hakkı tanınmasını talep ediyor

Cache TTL değişikliğinin yol açtığı maliyet ve kota sorunları raporu

2026 Mart ayının başında Anthropic'in Claude Code önbellek TTL varsayılanının 1 saatten 5 dakikaya değiştirildiği analiz edildi
- 11 Ocak 2026 ile 11 Nisan 2026 arasındaki 119.866 API çağrısı verisi temel alınarak analiz yapıldı
- 6-8 Mart arasında 5 dakikalık TTL yeniden görülmeye başlandı ve 1 saatlik TTL kademeli olarak ortadan kayboldu
- Aynı sürümdeki istemci ve aynı kullanım kalıplarında gerçekleştiği için bunun sunucu tarafı yapılandırma değişikliği olduğu doğrulandı
TTL değişikliğiyle önbellek oluşturma maliyeti %20~32 arttı ve abonelerin kota tüketiminde sert artış gözlendi
- 5 dakikalık TTL'de oturum 5 dakikadan uzun süre durursa önbellek sona eriyor ve tüm bağlamın yeniden yüklenmesi gerekiyor
- Önbelleği yeniden oluşturmak, okumaya göre en fazla 12,5 kat daha pahalı ve kodlama oturumu uzadıkça maliyet birikiyor
- 1 saatlik TTL'nin korunduğu Şubat ayında israf oranı %1,1 iken, Mart sonrasında %15~53'e fırladı
Maliyet analizi sonuçları
- claude-sonnet-4-6 modeli: toplam maliyet $5,561.17 → 1 saat TTL için $4,612.09 (yaklaşık %17,1 fazla harcama)
- claude-opus-4-6 modeli: toplam maliyet $9,268.97 → 1 saat TTL için $7,687.17 (yaklaşık %17,1 fazla harcama)
- Modeller arasında aynı orandaki israfın tutarlı biçimde görüldüğü belirtildi
Kota etkisi
- Önbellek oluşturma token'ları kotaya tam olarak yansıyor, önbellek okuma ise daha düşük ağırlıkla hesaplanıyor
- Mart sonrasında abonelerin ilk kez 5 saatlik kota sınırına ulaşmaya başladığı görüldü

Anthropic'in resmi yanıtı

Değişikliği kabul etti: 6 Mart'taki değişiklik kasıtlı bir adımdı ve önbellek optimizasyon çalışmasının parçası olarak yapıldı
- İstek türüne göre TTL farklı uygulanacak şekilde tasarlanmış durumda ve tek bir küresel varsayılan değer bulunmuyor
- Tüm isteklere 1 saatlik TTL uygulanması tersine maliyeti artırabilir
- 5 dakikalık TTL, yeniden kullanılmayan isteklerde daha verimli ve tüm istek kombinasyonu bazında toplam maliyeti düşürücü etki sağlıyor
Hata düzeltmesi: v2.1.90 sürümünde, abone kotasını tamamen tüketen bir oturumun kapanana kadar 5 dakikalık TTL'ye sabitlenmesine yol açan istemci hatası düzeltildi
Taleplere verilen yanıtlar
1. Değişiklik yapıldı ve 6 Mart'ta kasıtlı olarak uygulandı
2. TTL istek bazında dinamik seçiliyor, küresel bir varsayılan yok
3. Varsayılanı yeniden 1 saat TTL'ye döndürme veya bir ayar seçeneği sunma planı yok
4. Önbellek okuma token'larının kotaya yansıma biçimi için ayrı bir başlıkta daha sonra ek bilgilendirme yapılacak

Topluluk tepkisi

Çok sayıda kullanıcı maliyet artışı ve kullanılabilirlikte düşüşe dikkat çekerek memnuniyetsizliğini dile getirdi
- “5 dakikalık TTL fiilen oturumu her 5 dakikada bir yeniden başlatıyormuş gibi hissettiriyor ve üretkenliği düşürüyor” görüşü yaygın
- “Aboneler ücreti zaten peşin ödedi ama TTL değişikliğiyle fiili kullanım süresi azaldı” eleştirisi yapıldı
- “Kullanıcı maliyetini etkileyen böyle bir değişiklik için önceden duyuru şart” talebi öne çıktı
Bazı kullanıcılar bunun API kullanıcıları için olumlu bir değişim olduğunu söylese de, diğerleri “API'de zaten varsayılan TTL 5 dakikaydı” diyerek buna itiraz etti
Şeffaflık eksikliği eleştirilerin odağı oldu
- “Maliyetle ilgili altyapı değişikliklerinde sonradan açıklama yapmak yerine önceden duyuru gerekir”
- “Bu tür 'sessiz değişiklikler' güveni zedeliyor ve kullanıcıları sorunun nedenini kendi başına iz sürmeye zorluyor”
Dokümantasyon kayıtlarına göre varsayılan önbellek 5 dakikalık TTL'ye sahip ve 1 saatlik TTL ek maliyet oluşturan bir seçenek olarak sunuluyor
- 2026 Ocak tarihli resmi belgelerde de aynı açıklamanın yer aldığı doğrulandı

Sonuç

6 Mart 2026'da Anthropic, Claude Code'un önbellek TTL politikasını 1 saatten 5 dakikaya değiştirdi
Şirket bunu maliyet optimizasyonu için yapılmış kasıtlı bir ayarlama olarak açıklasa da, kullanıcılar maliyet artışı, kota tükenmesi ve şeffaflık eksikliğini sorun olarak gösteriyor
Topluluk, ileride TTL ayarlarında kullanıcıya seçim hakkı tanınmasını ve politika değişikliklerinin önceden duyurulmasını talep ediyor

1 yorum

GN⁺ 17 일 전

Hacker News yorumları

Son birkaç ay içinde mühendislerin Claude/Codex hakkındaki havasının belirgin biçimde değiştiği hissediliyor
Özellikle kapalı kapılar ardında yapılan değişiklikler arttıkça, insanlar ilk para ödedikleri ürünün hâlâ aynı ürün olup olmadığından emin olamamanın tedirginliğini yaşıyor
Son zamanlarda Anthropic'ten söz edildiğinde çoğu kez olumsuz bir bağlamda anılıyor gibi görünüyor
- Son dönemde Anthropic'in OpenClaw kullanıcılarını engellemesi, üçüncü taraf harness'leri yasaklaması, çıkarım yoğunluğunu düşürmesi, yanıt uzunluğunu azaltması gibi çeşitli adımlar atması dikkat çekiciydi
  Kullanımın bir ara aniden 21 kat arttığı da olmuştu ve genel olarak bu durum maliyet düşürme çabası gibi görünüyor
  Hâlâ Claude'u seviyorum ama arkadaşlarıma önermem giderek zorlaşıyor
- Bizim şirketimizde (400'den fazla mühendis var) bir ay önce tüm IDE abonelikleri (Visual Studio, JetBrains vb.) iptal edilip Claude Code'a geçildi
  EVP hafta sonu yaptığı iki demoyu gösterip aynısını yapmamızı istemişti ama bir hafta içinde aşırı token tüketimi nedeniyle kullanımın durdurulduğu duyuruldu
  Sonrasında modelin her hafta zayıfladığı hissedildi, bu yüzden EVP'nin şu an ne hissettiğini merak ediyorum
- Birkaç ay öncesine kadar Claude Code harikaydı ama bugünlerde hata ve yanlış anlama o kadar arttı ki neredeyse kullanılamaz hâlde
  Codex'e geçince çok daha istikrarlı olduğunu gördüm
  Benim tahminim, ilk çıkışta güçlü tutulup zaman geçtikçe performansın kademeli olarak azaltıldığı ve böylece bir sonraki sürüme beklentinin artırıldığı yönünde
- Abone olduktan sonra çıkarım yeteneğinde düşüşü net biçimde hissettim
  Çeşitli ayarları değiştirdim, script'lerle sistem prompt'unu da düzenledim ama buna rağmen sık sık mantıksal döngülere giriyor
  Bunun bir bug mı, bilinçli bir zayıflatma mı, yoksa sadece benim yanılgım mı olduğunu ayırt edemiyorum
- Ben büyük bir sorun hissetmedim
  Sanırım Claude'a adım adım refactor yaptırdığım için böyle
  Daha önce Grafana ayarlarını sorduğumda Claude bir keresinde “sadece tahmin ettim” demişti ve sonuçta 35k token harcayıp bana basit bir checkbox'ın yerini söylemişti
  İş arkadaşlarım performans düşüşünü hissedip Cursor'a geçiyor ama ben hâlâ Claude'un konuşma akışını sevdiğim için kullanmaya devam ediyorum
Bu aralar Claude Code ve abonelik hizmeti eskisine göre çok daha az faydalı
Bug'lar, kotanın tüketilme hızı, model performansındaki düşüş, cache geçersizleşme sorunları, quantization şüpheleri gibi çeşitli problemler birikmiş durumda
Eskiden tek seferde prototip çıkarabiliyorken şimdi ayrıntılı bir spesifikasyon olsa bile bu neredeyse imkânsız
ChatGPT de benzer şekilde zayıflıyor
Görünen o ki ne Anthropic ne de OpenAI kökten bir çözüm sunuyor
- Bir arkadaşım Cursor'ın çoklu model özelliğini kullanıyor ve memnun
  Birkaç ay önce Cursor'ın bittiğini söyleyen çoktu ama şimdi tam tersine gayet iyi kullanılıyor
- Talepteki patlama yüzünden kullanıcıların büyük kısmına haber verilmeden yüksek derecede quantized modeller sunuluyor gibi görünüyor
- Bu tür AI hizmetlerinin çoğu aslında zarar sübvansiyonlu modeller, dolayısıyla zamanla kalitenin düşmesi ve fiyatın artması kaçınılmaz bir akış
Oturum kota sınırı o kadar sıkı ki kullanıcı deneyimi bir kısır döngüye giriyor
Bir saatlik cache bitince yeniden başlamak daha pahalıya mal oluyor ve sonuç olarak bir sonraki oturum da daha hızlı tükeniyor
Mart ortasında Pro planda bile oturumlar bir saat içinde bitiyordu; bu da onu fiilen kullanılamaz hâle getiriyordu
Başlıktaki yazım şekli hatalıydı ve yanlış anlaşılmaya yol açtı
“M” yerine “min” yazılmalıydı; aksi hâlde TTL'in 1 saatten 5 aya çıktığı izlenimi doğuyordu
- Başlığın değiştirilme biçiminin sorunun ölçeğini gizliyormuş gibi görünmesi üzücü
- Ben de ilk başta “M ne demek?” diye afalladım
Son zamanlarda Claude, car wash sorusunu bile sık sık yanlış cevaplıyor
Problem çözmenin zorluğunu abartıyor ya da “çok uzun sürer” diyerek kolay yolu seçmeye yöneliyor
- Son birkaç haftadır sistem prompt'u modelin çabasını sınırlıyor gibi bir his var
  JSON log'larına bakınca “bu çok karmaşık, bunu hardcode yapalım” gibi cümlelerin tekrarlandığı görülüyor
  Anthropic sanki hesaplama kaynağı yetersizliği ile yeni kullanıcı patlaması arasında denge kurmaya çalışıyor
- Daha önce Claude'un “bu birkaç hafta sürer” diyerek reddettiği bir işi, biraz ısrar edilince 30 saniyede tamamladığı örnekleri de duydum
- Bu, “zararına satış → panik → ürünün mahvedilmesi” döngüsünün tipik bir aşaması gibi görünüyor
- Token tüketim hızı da arttı; eskiden aynı anda 3-5 proje yürütebilirken şimdi bir tanesini bile bitirmek zor
- “Riski falan boş ver, sadece yap!” gibi güçlü prompt'lar kullanıldığında model yeniden daha istekli davranıyor
  Biraz agresif ama etkili bir LLM motive etme yöntemi
Anthropic, GitHub issue'sunda resmî bir yanıt bıraktı
- Başlığı okuyunca sanki Claude başka Claude'larla konuşuyormuş gibi bir his oluştu
- 6 Mart değişikliğini kabul etmiş olmaları ilginçti. Bunu prompt analiziyle ortaya çıkaranlara şapka çıkarmak lazım
- Şirketin açıklaması mantıklıydı ama “cache read likelihood” gibi terimler gösteriş olsun diye söylenmiş gibi duyulduğu için topluluk bunu pek iyi karşılamamış görünüyor
Ben doğrudan API tabanlı bir sohbet aracı yapıp cache ekledim
5 dakikalık cache konuşmanın temposuna uymadığı için sık sık sona eriyor ama ortak prefix kullanan araçlarda ciddi tasarruf sağlıyor
Cache iyi kullanılırsa maliyet avantajı oldukça büyük oluyor
Cache sonlanma politikası 5 saatlik oturumla uyumlu olmadığı için, oturum kullanımı %97 civarına geldiğinde her 4 dakika 50 saniyede bir minimum token harcayan bir script ile cache'i canlı tutmayı düşünüyordum
Dwarkesh podcast'inde Anthropic'in hesaplama kapasitesini artırma konusunda temkinli olduğuna dair şeyler duydum
Talep hızla arttığında hesaplama yükünü azaltmaya çalışmaları kaçınılmaz deniyor
Daha fazla para harcamak da bunu kısa vadede çözecek bir şey değil
- Bu tür durumlar genelde yeni model pretraining aşamasında sık görülür. 3.x döneminde de böyleydi
Anthropic/Claude tarafındaki garip değişikliklerden bağımsız olarak, bu gönderideki tablo verilerine bakınca şubat ve nisandaki maliyet ile çağrı sayılarının neredeyse aynı olması kafa karıştırıcı
Acaba benim gözden kaçırdığım bir şey mi var bilmiyorum

Anthropic, 6 Mart 2026'da önbellek TTL'sini 1 saatten 5 dakikaya düşürdü

Cache TTL değişikliğinin yol açtığı maliyet ve kota sorunları raporu

Maliyet analizi sonuçları

Kota etkisi

Anthropic'in resmi yanıtı

Topluluk tepkisi

Sonuç

İlgili okumalar

1 yorum

Hacker News yorumları