1 puan yazan calmlake79 2026-02-12 | Henüz yorum yok. | WhatsApp'ta paylaş

AI chatbot hizmetlerinde kullanılan yaklaşık 7.500 token'lık sistem promptu (girdi) ve yaklaşık 100 token'lık yanıt (çıktı) temel alınarak, Vertex AI'nin Context Caching özelliği ile bu kez yeni çıkan Priority PayGo'nun gecikme iyileştirme etkisi kıyaslandı

  • 4 senaryo (Standard/Priority × cache'li/cache'siz), her biri 100 kez, toplam 400 istek
  • Model: gemini-3-flash-preview
  • İstek yöntemi: 1 saniye aralıklarla staggered start

Başlıca sonuçlar:

  • Context Caching: cache kullanılsa da kullanılmasa da ortalama yanıt süresi neredeyse aynı (~3 saniye)
  • Priority PayGo: yoğun olmayan saatlerde aksine %3~7 daha yavaş
  • Cache'siz senaryoda bile Vertex AI'nin dahili olarak Implicit Caching uyguladığı doğrulandı
  • Thinking Level'e göre gecikme farkı ezici düzeyde: DEFAULT 7,4 saniye → LOW 3 saniye → MINIMAL 2,6 saniye

Sonuç: cache veya öncelik ayarlarından ziyade, istek yapısının kendisini değiştirmek gecikme optimizasyonunda daha etkili

Henüz yorum yok.

Henüz yorum yok.