Vertex AI Context Caching + Priority PayGo gecikme kıyaslaması (400 kez, Gemini 3 Flash)

(cloudturing.com)

1 puan yazan calmlake79 2026-02-12 | Henüz yorum yok. | WhatsApp'ta paylaş

AI chatbot hizmetlerinde kullanılan yaklaşık 7.500 token'lık sistem promptu (girdi) ve yaklaşık 100 token'lık yanıt (çıktı) temel alınarak, Vertex AI'nin Context Caching özelliği ile bu kez yeni çıkan Priority PayGo'nun gecikme iyileştirme etkisi kıyaslandı

4 senaryo (Standard/Priority × cache'li/cache'siz), her biri 100 kez, toplam 400 istek
Model: gemini-3-flash-preview
İstek yöntemi: 1 saniye aralıklarla staggered start

Başlıca sonuçlar:

Context Caching: cache kullanılsa da kullanılmasa da ortalama yanıt süresi neredeyse aynı (~3 saniye)
Priority PayGo: yoğun olmayan saatlerde aksine %3~7 daha yavaş
Cache'siz senaryoda bile Vertex AI'nin dahili olarak Implicit Caching uyguladığı doğrulandı
Thinking Level'e göre gecikme farkı ezici düzeyde: DEFAULT 7,4 saniye → LOW 3 saniye → MINIMAL 2,6 saniye

Sonuç: cache veya öncelik ayarlarından ziyade, istek yapısının kendisini değiştirmek gecikme optimizasyonunda daha etkili

Vertex AI Context Caching + Priority PayGo gecikme kıyaslaması (400 kez, Gemini 3 Flash)

İlgili okumalar

Henüz yorum yok.