- Prompt Caching, API kullanımını optimize ederek istemin belirli bir önekinden işi yeniden başlatmayı mümkün kılar
- Büyük istemleri birden fazla API çağrısında yeniden işlemeye gerek kalmadan tekrar kullanarak, tekrarlayan işlerde işlem süresini ve maliyeti büyük ölçüde azaltır
- Nasıl çalışır
- İstem Prefix önbellekleme: Sistem, son sorgularda istem Prefix'inin önbelleğe alınıp alınmadığını kontrol eder. Bulunursa işleme süresini ve maliyeti azaltmak için önbelleğe alınmış sürüm kullanılır. Aksi halde tüm istem işlenir ve Prefix önbelleğe alınır.
- Kullanım senaryoları: Çok sayıda örnek içeren istemler, büyük miktarda bağlam veya arka plan bilgisi, tutarlı talimatlar içeren tekrarlı işler ve uzun çok turlu konuşmalar için faydalıdır
- Önbellek ömrü: Önbellek 5 dakika boyunca geçerlidir ve önbelleğe alınan içerik her kullanıldığında yenilenir
- Önbelleğe alınan istem içeriği
- Araçlar, sistem ve mesajlar (bu sırayla) dahil olmak üzere tüm isteme bakılır.
cache_control ile belirtilen bloklara kadar dahil edilir
- Fiyatlandırma
- Claude 3.5 Sonnet: temel giriş token'ı $3 / MTok, önbellek yazma $3.75 / MTok, önbellek okuma $0.30 / MTok, çıkış token'ı $15 / MTok
- Claude 3 Haiku: temel giriş token'ı $0.25 / MTok, önbellek yazma $0.30 / MTok, önbellek okuma $0.03 / MTok, çıkış token'ı $1.25 / MTok
- Claude 3 Opus (yakında çıkacak): temel giriş token'ı $15 / MTok, önbellek yazma $18.75 / MTok, önbellek okuma $1.50 / MTok, çıkış token'ı $75 / MTok
- Öne çıkan noktalar
- Önbellek yazma token'ları, temel giriş token'larından %25 daha pahalıdır
- Önbellek okuma token'ları, temel giriş token'larından %90 daha ucuzdur
- Önbellek sınırlamaları
- Önbelleğe alınabilir minimum istem uzunluğu:
- Claude 3.5 Sonnet ve Claude 3 Opus: 1024 token
- Claude 3 Haiku: 2048 token
- 5 dakikalık bir önbellek TTL'si vardır ve şu anda "ephemeral", bu 5 dakikalık ömre karşılık gelen desteklenen tek önbellek türüdür
- Çeşitli kullanım senaryoları
- Etkileşimli ajanlar: Uzun talimatlar veya yüklenmiş belgeler içeren konuşmalarda maliyeti ve gecikmeyi azaltabilir
- Kodlama asistanları: İlgili bölümleri veya kod tabanının özet sürümünü istem içinde tutarak otomatik tamamlama ve kod tabanı Soru-Cevap performansını artırır
- Büyük belge işleme: Görseller içeren uzun formatlı materyalleri isteme dahil etseniz bile yanıt gecikmesi olmadan işleyebilir
- Ayrıntılı talimat setleri: 20'den fazla farklı yüksek kaliteli yanıt örneği ekleyerek Claude'un yanıtlarını daha ince ayarlı hale getirir
- Ajan araç kullanımı: Birden fazla araç çağrısı ve tekrarlayan kod değişiklikleri içeren senaryolarda performansı artırabilir
- Kitaplar, makaleler, belgeler, podcast dökümleri ve diğer uzun içeriklerle konuşma: Tüm belgeyi/belgeleri isteme dahil ederek kullanıcının bunlar hakkında soru sorabilmesini sağlar
Henüz yorum yok.