2 puan yazan johnonlee 2 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş

OpenCode Go kullanırken panoda garip bir şey fark ettim. Aynı model, benzer giriş token'ları (300K vs 257K), ama maliyet $0.0096 vs $0.4455 — tam 46 kat fark çıktı. Nedeni prompt caching.

LLM'ler aynı prefix tekrarlandığında önceki hesaplamayı yeniden kullanır; ancak çoğu kodlama ajanı her turda tüm konuşma geçmişini (transcript) olduğu gibi gönderir. Kısa vadede cache sayesinde ucuz görünür, fakat context window dolup compaction gerçekleştiğinde prefix bozulur ve cache geçersiz hale gelir.

Bu yazıda, transcript yaklaşımının gizli maliyetini ve yalnızca structured state gönderen alternatif yaklaşımı, gerçek bir 44 turluk debug oturumu verileriyle (%80.4 token azalması) birlikte inceliyor. Mesele cache olup olmaması değil; "cache'in ne zaman bozulacağı belli olmayan bir yapı" ile "cache'e bağımlı olmayan bir yapı" arasındaki fark olarak ele alınıyor.

Henüz yorum yok.

Henüz yorum yok.