1 puan yazan GN⁺ 17 일 전 | 1 yorum | WhatsApp'ta paylaş
  • 2026 Mart ayının başında Claude Code'un önbellek TTL'sinin 1 saatten 5 dakikaya değiştirildiği ve aynı kullanım kalıplarında bile sunucu tarafı ayar farkından kaynaklanan değişimin doğrulandığı görüldü
  • TTL'nin kısaltılmasıyla önbelleği yeniden oluşturma maliyeti %20~32 arttı ve uzun süreli oturumlarda kota tüketimi keskin biçimde yükseldi
  • Analiz sonucunda, modele göre yaklaşık %17 ek maliyet oluştuğu ve bazı kullanıcıların 5 saatlik kota sınırına ulaşmaya başladığı görüldü
  • Anthropic, 6 Mart'taki değişikliğin kasıtlı bir adım olduğunu ve istek bazında farklı TTL uygulayarak toplam maliyeti düşürmeyi hedeflediğini açıkladı
  • Topluluk, maliyet artışı, şeffaflık eksikliği ve önceden duyuru yapılmamasını eleştirerek TTL ayarlarında kullanıcıya seçim hakkı tanınmasını talep ediyor

Cache TTL değişikliğinin yol açtığı maliyet ve kota sorunları raporu

  • 2026 Mart ayının başında Anthropic'in Claude Code önbellek TTL varsayılanının 1 saatten 5 dakikaya değiştirildiği analiz edildi
    • 11 Ocak 2026 ile 11 Nisan 2026 arasındaki 119.866 API çağrısı verisi temel alınarak analiz yapıldı
    • 6-8 Mart arasında 5 dakikalık TTL yeniden görülmeye başlandı ve 1 saatlik TTL kademeli olarak ortadan kayboldu
    • Aynı sürümdeki istemci ve aynı kullanım kalıplarında gerçekleştiği için bunun sunucu tarafı yapılandırma değişikliği olduğu doğrulandı
  • TTL değişikliğiyle önbellek oluşturma maliyeti %20~32 arttı ve abonelerin kota tüketiminde sert artış gözlendi
    • 5 dakikalık TTL'de oturum 5 dakikadan uzun süre durursa önbellek sona eriyor ve tüm bağlamın yeniden yüklenmesi gerekiyor
    • Önbelleği yeniden oluşturmak, okumaya göre en fazla 12,5 kat daha pahalı ve kodlama oturumu uzadıkça maliyet birikiyor
    • 1 saatlik TTL'nin korunduğu Şubat ayında israf oranı %1,1 iken, Mart sonrasında %15~53'e fırladı
  • Maliyet analizi sonuçları

    • claude-sonnet-4-6 modeli: toplam maliyet $5,561.17 → 1 saat TTL için $4,612.09 (yaklaşık %17,1 fazla harcama)
    • claude-opus-4-6 modeli: toplam maliyet $9,268.97 → 1 saat TTL için $7,687.17 (yaklaşık %17,1 fazla harcama)
    • Modeller arasında aynı orandaki israfın tutarlı biçimde görüldüğü belirtildi
  • Kota etkisi

    • Önbellek oluşturma token'ları kotaya tam olarak yansıyor, önbellek okuma ise daha düşük ağırlıkla hesaplanıyor
    • Mart sonrasında abonelerin ilk kez 5 saatlik kota sınırına ulaşmaya başladığı görüldü

Anthropic'in resmi yanıtı

  • Değişikliği kabul etti: 6 Mart'taki değişiklik kasıtlı bir adımdı ve önbellek optimizasyon çalışmasının parçası olarak yapıldı
    • İstek türüne göre TTL farklı uygulanacak şekilde tasarlanmış durumda ve tek bir küresel varsayılan değer bulunmuyor
    • Tüm isteklere 1 saatlik TTL uygulanması tersine maliyeti artırabilir
    • 5 dakikalık TTL, yeniden kullanılmayan isteklerde daha verimli ve tüm istek kombinasyonu bazında toplam maliyeti düşürücü etki sağlıyor
  • Hata düzeltmesi: v2.1.90 sürümünde, abone kotasını tamamen tüketen bir oturumun kapanana kadar 5 dakikalık TTL'ye sabitlenmesine yol açan istemci hatası düzeltildi
  • Taleplere verilen yanıtlar
    1. Değişiklik yapıldı ve 6 Mart'ta kasıtlı olarak uygulandı
    2. TTL istek bazında dinamik seçiliyor, küresel bir varsayılan yok
    3. Varsayılanı yeniden 1 saat TTL'ye döndürme veya bir ayar seçeneği sunma planı yok
    4. Önbellek okuma token'larının kotaya yansıma biçimi için ayrı bir başlıkta daha sonra ek bilgilendirme yapılacak

Topluluk tepkisi

  • Çok sayıda kullanıcı maliyet artışı ve kullanılabilirlikte düşüşe dikkat çekerek memnuniyetsizliğini dile getirdi

    • “5 dakikalık TTL fiilen oturumu her 5 dakikada bir yeniden başlatıyormuş gibi hissettiriyor ve üretkenliği düşürüyor” görüşü yaygın
    • “Aboneler ücreti zaten peşin ödedi ama TTL değişikliğiyle fiili kullanım süresi azaldı” eleştirisi yapıldı
    • “Kullanıcı maliyetini etkileyen böyle bir değişiklik için önceden duyuru şart” talebi öne çıktı
  • Bazı kullanıcılar bunun API kullanıcıları için olumlu bir değişim olduğunu söylese de, diğerleri “API'de zaten varsayılan TTL 5 dakikaydı” diyerek buna itiraz etti

  • Şeffaflık eksikliği eleştirilerin odağı oldu

    • “Maliyetle ilgili altyapı değişikliklerinde sonradan açıklama yapmak yerine önceden duyuru gerekir”
    • “Bu tür 'sessiz değişiklikler' güveni zedeliyor ve kullanıcıları sorunun nedenini kendi başına iz sürmeye zorluyor”
  • Dokümantasyon kayıtlarına göre varsayılan önbellek 5 dakikalık TTL'ye sahip ve 1 saatlik TTL ek maliyet oluşturan bir seçenek olarak sunuluyor

    • 2026 Ocak tarihli resmi belgelerde de aynı açıklamanın yer aldığı doğrulandı

Sonuç

  • 6 Mart 2026'da Anthropic, Claude Code'un önbellek TTL politikasını 1 saatten 5 dakikaya değiştirdi
  • Şirket bunu maliyet optimizasyonu için yapılmış kasıtlı bir ayarlama olarak açıklasa da, kullanıcılar maliyet artışı, kota tükenmesi ve şeffaflık eksikliğini sorun olarak gösteriyor
  • Topluluk, ileride TTL ayarlarında kullanıcıya seçim hakkı tanınmasını ve politika değişikliklerinin önceden duyurulmasını talep ediyor

1 yorum

 
GN⁺ 17 일 전
Hacker News yorumları
  • Son birkaç ay içinde mühendislerin Claude/Codex hakkındaki havasının belirgin biçimde değiştiği hissediliyor
    Özellikle kapalı kapılar ardında yapılan değişiklikler arttıkça, insanlar ilk para ödedikleri ürünün hâlâ aynı ürün olup olmadığından emin olamamanın tedirginliğini yaşıyor
    Son zamanlarda Anthropic'ten söz edildiğinde çoğu kez olumsuz bir bağlamda anılıyor gibi görünüyor

    • Son dönemde Anthropic'in OpenClaw kullanıcılarını engellemesi, üçüncü taraf harness'leri yasaklaması, çıkarım yoğunluğunu düşürmesi, yanıt uzunluğunu azaltması gibi çeşitli adımlar atması dikkat çekiciydi
      Kullanımın bir ara aniden 21 kat arttığı da olmuştu ve genel olarak bu durum maliyet düşürme çabası gibi görünüyor
      Hâlâ Claude'u seviyorum ama arkadaşlarıma önermem giderek zorlaşıyor
    • Bizim şirketimizde (400'den fazla mühendis var) bir ay önce tüm IDE abonelikleri (Visual Studio, JetBrains vb.) iptal edilip Claude Code'a geçildi
      EVP hafta sonu yaptığı iki demoyu gösterip aynısını yapmamızı istemişti ama bir hafta içinde aşırı token tüketimi nedeniyle kullanımın durdurulduğu duyuruldu
      Sonrasında modelin her hafta zayıfladığı hissedildi, bu yüzden EVP'nin şu an ne hissettiğini merak ediyorum
    • Birkaç ay öncesine kadar Claude Code harikaydı ama bugünlerde hata ve yanlış anlama o kadar arttı ki neredeyse kullanılamaz hâlde
      Codex'e geçince çok daha istikrarlı olduğunu gördüm
      Benim tahminim, ilk çıkışta güçlü tutulup zaman geçtikçe performansın kademeli olarak azaltıldığı ve böylece bir sonraki sürüme beklentinin artırıldığı yönünde
    • Abone olduktan sonra çıkarım yeteneğinde düşüşü net biçimde hissettim
      Çeşitli ayarları değiştirdim, script'lerle sistem prompt'unu da düzenledim ama buna rağmen sık sık mantıksal döngülere giriyor
      Bunun bir bug mı, bilinçli bir zayıflatma mı, yoksa sadece benim yanılgım mı olduğunu ayırt edemiyorum
    • Ben büyük bir sorun hissetmedim
      Sanırım Claude'a adım adım refactor yaptırdığım için böyle
      Daha önce Grafana ayarlarını sorduğumda Claude bir keresinde “sadece tahmin ettim” demişti ve sonuçta 35k token harcayıp bana basit bir checkbox'ın yerini söylemişti
      İş arkadaşlarım performans düşüşünü hissedip Cursor'a geçiyor ama ben hâlâ Claude'un konuşma akışını sevdiğim için kullanmaya devam ediyorum
  • Bu aralar Claude Code ve abonelik hizmeti eskisine göre çok daha az faydalı
    Bug'lar, kotanın tüketilme hızı, model performansındaki düşüş, cache geçersizleşme sorunları, quantization şüpheleri gibi çeşitli problemler birikmiş durumda
    Eskiden tek seferde prototip çıkarabiliyorken şimdi ayrıntılı bir spesifikasyon olsa bile bu neredeyse imkânsız
    ChatGPT de benzer şekilde zayıflıyor
    Görünen o ki ne Anthropic ne de OpenAI kökten bir çözüm sunuyor

    • Bir arkadaşım Cursor'ın çoklu model özelliğini kullanıyor ve memnun
      Birkaç ay önce Cursor'ın bittiğini söyleyen çoktu ama şimdi tam tersine gayet iyi kullanılıyor
    • Talepteki patlama yüzünden kullanıcıların büyük kısmına haber verilmeden yüksek derecede quantized modeller sunuluyor gibi görünüyor
    • Bu tür AI hizmetlerinin çoğu aslında zarar sübvansiyonlu modeller, dolayısıyla zamanla kalitenin düşmesi ve fiyatın artması kaçınılmaz bir akış
  • Oturum kota sınırı o kadar sıkı ki kullanıcı deneyimi bir kısır döngüye giriyor
    Bir saatlik cache bitince yeniden başlamak daha pahalıya mal oluyor ve sonuç olarak bir sonraki oturum da daha hızlı tükeniyor
    Mart ortasında Pro planda bile oturumlar bir saat içinde bitiyordu; bu da onu fiilen kullanılamaz hâle getiriyordu

  • Başlıktaki yazım şekli hatalıydı ve yanlış anlaşılmaya yol açtı
    “M” yerine “min” yazılmalıydı; aksi hâlde TTL'in 1 saatten 5 aya çıktığı izlenimi doğuyordu

    • Başlığın değiştirilme biçiminin sorunun ölçeğini gizliyormuş gibi görünmesi üzücü
    • Ben de ilk başta “M ne demek?” diye afalladım
  • Son zamanlarda Claude, car wash sorusunu bile sık sık yanlış cevaplıyor
    Problem çözmenin zorluğunu abartıyor ya da “çok uzun sürer” diyerek kolay yolu seçmeye yöneliyor

    • Son birkaç haftadır sistem prompt'u modelin çabasını sınırlıyor gibi bir his var
      JSON log'larına bakınca “bu çok karmaşık, bunu hardcode yapalım” gibi cümlelerin tekrarlandığı görülüyor
      Anthropic sanki hesaplama kaynağı yetersizliği ile yeni kullanıcı patlaması arasında denge kurmaya çalışıyor
    • Daha önce Claude'un “bu birkaç hafta sürer” diyerek reddettiği bir işi, biraz ısrar edilince 30 saniyede tamamladığı örnekleri de duydum
    • Bu, “zararına satış → panik → ürünün mahvedilmesi” döngüsünün tipik bir aşaması gibi görünüyor
    • Token tüketim hızı da arttı; eskiden aynı anda 3-5 proje yürütebilirken şimdi bir tanesini bile bitirmek zor
    • “Riski falan boş ver, sadece yap!” gibi güçlü prompt'lar kullanıldığında model yeniden daha istekli davranıyor
      Biraz agresif ama etkili bir LLM motive etme yöntemi
  • Anthropic, GitHub issue'sunda resmî bir yanıt bıraktı

    • Başlığı okuyunca sanki Claude başka Claude'larla konuşuyormuş gibi bir his oluştu
    • 6 Mart değişikliğini kabul etmiş olmaları ilginçti. Bunu prompt analiziyle ortaya çıkaranlara şapka çıkarmak lazım
    • Şirketin açıklaması mantıklıydı ama “cache read likelihood” gibi terimler gösteriş olsun diye söylenmiş gibi duyulduğu için topluluk bunu pek iyi karşılamamış görünüyor
  • Ben doğrudan API tabanlı bir sohbet aracı yapıp cache ekledim
    5 dakikalık cache konuşmanın temposuna uymadığı için sık sık sona eriyor ama ortak prefix kullanan araçlarda ciddi tasarruf sağlıyor
    Cache iyi kullanılırsa maliyet avantajı oldukça büyük oluyor

  • Cache sonlanma politikası 5 saatlik oturumla uyumlu olmadığı için, oturum kullanımı %97 civarına geldiğinde her 4 dakika 50 saniyede bir minimum token harcayan bir script ile cache'i canlı tutmayı düşünüyordum

  • Dwarkesh podcast'inde Anthropic'in hesaplama kapasitesini artırma konusunda temkinli olduğuna dair şeyler duydum
    Talep hızla arttığında hesaplama yükünü azaltmaya çalışmaları kaçınılmaz deniyor
    Daha fazla para harcamak da bunu kısa vadede çözecek bir şey değil

    • Bu tür durumlar genelde yeni model pretraining aşamasında sık görülür. 3.x döneminde de böyleydi
  • Anthropic/Claude tarafındaki garip değişikliklerden bağımsız olarak, bu gönderideki tablo verilerine bakınca şubat ve nisandaki maliyet ile çağrı sayılarının neredeyse aynı olması kafa karıştırıcı
    Acaba benim gözden kaçırdığım bir şey mi var bilmiyorum