Vertex AI Context Caching + Priority PayGo gecikme kıyaslaması (400 kez, Gemini 3 Flash)
(cloudturing.com)AI chatbot hizmetlerinde kullanılan yaklaşık 7.500 token'lık sistem promptu (girdi) ve yaklaşık 100 token'lık yanıt (çıktı) temel alınarak, Vertex AI'nin Context Caching özelliği ile bu kez yeni çıkan Priority PayGo'nun gecikme iyileştirme etkisi kıyaslandı
- 4 senaryo (Standard/Priority × cache'li/cache'siz), her biri 100 kez, toplam 400 istek
- Model: gemini-3-flash-preview
- İstek yöntemi: 1 saniye aralıklarla staggered start
Başlıca sonuçlar:
- Context Caching: cache kullanılsa da kullanılmasa da ortalama yanıt süresi neredeyse aynı (~3 saniye)
- Priority PayGo: yoğun olmayan saatlerde aksine %3~7 daha yavaş
- Cache'siz senaryoda bile Vertex AI'nin dahili olarak Implicit Caching uyguladığı doğrulandı
- Thinking Level'e göre gecikme farkı ezici düzeyde: DEFAULT 7,4 saniye → LOW 3 saniye → MINIMAL 2,6 saniye
Sonuç: cache veya öncelik ayarlarından ziyade, istek yapısının kendisini değiştirmek gecikme optimizasyonunda daha etkili
Henüz yorum yok.