SRE'de yapay zeka: Google güvenilir operasyonların geleceğini nasıl tasarlıyor

epdlemflaj · 2026-06-02T11:08:38+09:00

Yapay zeka kodlama asistanları kod üretme ve dağıtım hızını artırırken (hedef: üretkenlikte 4 kata kadar artış), insanların tek tek incelediği geleneksel SRE pratikleri artık ölçeklenemiyor — bu yazı, Google'ın SRE'yi yapay zeka çağına uygun şekilde nasıl yeniden tasarladığını özetliyor Amaç yalnızca mevcut işleri yapay zekayla otomatikleştirmek değil; otonom azaltım ajanı (AI Operator), yürütme guardrail'leri (Actus) ve insan operasyon hafızasına dayalı sürekli değerlendirme hattı (IRM Analyzer) ile güvenilirlik için yeni bir temel kurmak Prodüksiyondaki yapay zekada hata maliyeti çok yüksek olduğundan, kontrol "güvenlik üçlüsü" (Safety Trifecta) ile sağlanıyor: şeffaflık, gerçek zamanlı risk değerlendirmesi ve kademeli yetkilendirme Otonomi, L0'dan (manuel) L4'e (tam otonom) kadar kademelendirilmiş; üst seviyeye çıkmak için golden data üzerinde istatistiksel olarak anlamlı başarı oranı kanıtlanmalı SRE'nin rolü "operatörden mimara" kayıyor — insanlar artık satır bazlı kod incelemesi yerine tasarım, niyet, politika ve otonom ajanların güvenlik sınırlarını tanımlayarak soyutlama merdiveninde yukarı çıkıyor SRE neden şimdi değişmek zorunda? SLO, error budget ve toil azaltma gibi temel felsefeler hâlâ standart olsa da, "gezegensel ölçekte" hizmetler ile çok kiracılı iş yüklerinin karmaşıklığı artık yalnızca deterministik otomasyonla yönetilemiyor Yapay zeka destekli geliştirme değişim hızını artırıyor, gözlemlenebilirlikteki boşluklar ise petabayt ölçeğinde yapılandırılmamış verilerle doluyor Yapay zeka, basit bir araç olarak değil, servis yaşam döngüsünün tamamına nüfuz eden dönüştürücü bir katman olarak entegre ediliyor Prodüksiyonda yapay zekayı kontrol etmek (AI-Ops yönetişimi) Prodüksiyonda yapay zekanın yanlış davranması anında ve geniş çaplı kesintilere yol açabilir; blast radius insanlardan daha büyük olur ve daha hızlı yayılır Başlıca zorluklar: insan uzmanlığının evrimi (operatör→mimar), açıklanabilirlik ve güven sağlama, veri bütünlüğü ve önyargıyı azaltma, model drift'e yanıt verme, güvenlik vektörlerine karşı savunma (adversarial attack, data poisoning, prompt injection), istenmeyen zincirleme arızaları önleme Güvenlik üçlüsü (Safety Trifecta) Şeffaflık: ajanlar kullandıkları sinyalleri, hipotezleri, seçim gerekçelerini ve güven düzeylerini "düşünce zinciri" (Chain of Thought) olarak log'lara yazar Gerçek zamanlı risk değerlendirmesi: devam eden dağıtımlar, error budget, aktif incident'lar, saat dilimi gibi bağlama göre her eylemin riski değerlendirilir Kademeli yetkilendirme (Progressive Authorization): en baştan tam yetki vermek yerine, yetkiler otonomi seviyesine göre adım adım genişletilir Mimari guardrail'ler: sürekli erişim yasağı ve en az ayrıcalık, ajana özel rate limit ve circuit breaker, zorunlu dry-run desteği, zero-trust ve varsayılan güvenli (safe-by-default) actuasyon SRE yapay zeka otonomi seviyeleri (L0~L4) Olgunluk, izleme, inceleme, onay, actuasyon ve self-direct yeteneklerindeki otomasyon derecesine göre tanımlanıyor L0 manuel: yalnızca izleme otomatik, diğer her şey insanlarda L1 destekli: incelemeye kadar otomatik (yapay zeka incident hipotezi sunar), onay ve yürütme insanlarda L2 kısmi otonom: yürütme de otomatik olabilir ama insanın açık onayı gerekir L3 yüksek otonom: iyi tanımlanmış senaryolarda onay ve actuasyon da otonomdur, insan sadece bilgilendirilir L4 tam otonom: tanılama, azaltım ve çözüm adımlarını kendi planlar ve uygular; sonuca göre stratejisini gerçek zamanlı ayarlar ve incident'ın tüm yaşam döngüsünü kapanışa kadar yönetir Seviye yükseltmek basit bir anahtar değil; güven ve güvenlik kontrollerinin sağlanmasına dayalı yapılandırılmış bir yolculuktur Değerlendirme verisi ve insan operasyon hafızası İnsan Trajectory'si (Human Trajectory): sohbetler, incident notları, CLI gibi dağınık kayıtlar NLP ile ayrıştırılarak zaman sıralı olay dizilerine dönüştürülür (IRM-Analyzer) Veri kalitesi katmanları: Bronze (otomatik etiketleyici sezgiselleri) / Silver (programatik üretim, gold standard'a göre kalibrasyon) / Gold (insan uzman doğrulaması) Katmanlı örnekleme ile çeşitli incident'lar elle incelenerek gold veri oluşturulur; bunun üzerinden gerçek kesinlik (True Precision) ile gözlenen kesinlik ayrı ayrı ölçülür Nightly Evals + LLM-as-a-Judge: yakın dönemdeki gerçek incident'larla her gün otomatik değerlendirme yapılır; nitel akıl yürütmeyi LLM değerlendirici, nihai azaltım çıktısını ise sıkı deterministik puanlama değerlendirir (ör. doğru binary ve sürüm tam eşleşmedikçe "doğru" sayılmaz) Golden data, incident azaltım iş akışına doğal biçimde entegre edilir; böylece SRE'ler yalnızca kabul/düzeltme/reddetme yaparak sürekli yüksek kaliteli etiket sağlar SRE yaşam döngüsünün tamamında yapay zeka kullanımı Detectr (tespit): Gemini tabanlı olarak sosyal medya, müşteri desteği, forumlar gibi kullanıcı geri bildirimlerini filtreleme→kümeleme→gürültü giderme→raporlama aşamalarından geçen çok aşamalı bir pipeline ile işler; metrik tabanlı izlemenin kaçırdığı yeni tür arızaları yakalayan bir backstop görevi görür (Cloud, Ads, YouTube, Search'te kullanılıyor; toplamda yüzlerce saatlik etki azaltımı sağladı) AI Alert (uyarı zenginleştirme): uyarı insana ulaşmadan önce yaklaşık 2 dakika içinde büyük ölçekte paralel biçimde izleme, log'lar, değişiklik kayıtları ve bağımlılık grafikleri sorgulanarak bağlam eklenir; tahmin değil, kaynak bağlantılarıyla doğrulanabilir yalnızca gerçekler sunulur (salt okunur) L1: insan yönlendirmeli azaltım Incident Hypothesis: LLM+RAG ile izleme anomalileri, playbook'lar, log'lar ve geçmiş benzer vakalar birleştirilerek en güçlü tek kök neden adayı ve doğrulama adımları sunulur → A/B testinde MTTM'de (ortalama azaltım süresi) %10 kısalma görüldü İnceleme panosu (InvD): incident başına tek ekranda anlık görünüm üretir; anomali tespiti→sinyal korelasyonu→inceleme değerini belirleme→kök nedeni saptama şeklinde 4 aşamalı yetenek sunar ve 100'den fazla alan özelinde "troubleshooter"ı paralel çalıştırır → yalnızca ML tabanlı anomali tespitiyle keşif oranı %195 arttı, MTTM yaklaşık %44 kısaldı Gemini tabanlı CLI (Antigravity CLI): Production Agent (MCP) üzerinden bug kaydı açma, sorumlu atama, postmortem dışa aktarma; gerçek zamanlı izleme sorguları, log analizi ve güvenli trafik drain gibi L1 incelemeleri yapar (skill kütüphanesiyle genişletilebilir) L3: otonom azaltım Maliyeti sabit tutarken 4 kat geliştirme hızını desteklemek için önerinin ötesine geçip doğrudan actuasyon gerekir; ancak bu, kademeli yetkilendirme altında L2'den (öneri + onay bekleme) başlayıp doğrulama sonrası L3/L4'e yükselerek yapılır AI Operator: prodüksiyon uyarılarının ilk müdahale ajanı; paralel incelemeyle RCA yaptıktan sonra enricher, skill ve few-shot örnekleri dinamik olarak kullanarak azaltım seçer, CoT'yi merkezi UI'da gösterir, takıldığında anında insana eskalasyon yapar ve inceleme geçmişini aktarır; tüm yürütme izleri Spanner'a kaydedilir ve LLM-as-a-Judge bunları otomatik eleştirip bug kaydı açarak bir öz-iyileştirme döngüsü oluşturur Actus (azaltım güvenlik doğrulama / actuasyon ajanı): yapay zekanın akıl yürütme motoru ile yürütme motorunu ayıran birleşik control plane — standartlaştırılmış araç kaydı ve planlama, dry-run ve gerekçe doğrulaması gibi ön güvenlik kontrolleri, risk algılandığında L3'ten L2'ye otomatik düşürme ve ayrıca tüm devam eden eylemleri anında durdurup L3 yetkilerini topluca geri alan acil durum "kırmızı düğmesi" AI-Ops'u ayakta tutan teknoloji Yüksek kaliteli prodüksiyon verisi ve metadata (telemetri, topoloji, geçmiş incident'lar, playbook'lar, SLO vb.) RAG platformu, alana özel fine-tuning, yapay zeka dostu araç arayüzleri (MCP, Production Agent sunucusu) Ajanları insanlardan ayıran güçlü ajan kimlik yönetimi (denetim, inkâr edememe) Ajanlar arası iletişim protokolü (A2A) sayesinde uzman ajanların mikroservisler gibi birlikte çalışması SRE'nin geleceği: agentic SDLC'de denetimin ölçeklenmesi Yapay zekanın kodu planlayıp yazıp gözden geçirip göndererek değişiklik hacmini (CL) 4 ila 10 kat artırmaya yöneldiği bir akım var — satır bazlı inceleme burada sınırına dayanıyor, sonuç da gözden geçiren yorgunluğu ve biçimsel onay oluyor İnsan denetimi sola kayıyor (shift left) ve soyutlama merdiveninde yukarı çıkarak tasarım, niyet ve politika incelemesine odaklanıyor Bağımsız harness (Independent Harness) zorunluluğu: kod üreten yapay zeka ile test ve inceleme yapan yapay zekanın sıkı biçimde ayrılması, böylece çapraz önyargının engellenmesi Uyarlanabilir kademeli rollout ve makine hızında sürekli prodüksiyon doğrulamasıyla mevcut soak time ve canary darboğazları aşılabilir Araya giren Pull Request sorunu (Intervening Pull Request Problem): basit rollback, arada gelen bug fix ve güvenlik yamalarını da geri alma riski taşır → dinamik yapılandırma, feature flag'ler ve yapay zeka destekli Fix-Forward (hedefli yama otomatik üretimi ve dağıtımı) ile çözülür Sonuç: SRE, sistemleri işletme rolünden, otonom ajanların güvenli biçimde inovasyon yapabileceği sınırları tasarlama rolüne dönüşüyor

(sre.google)

9 puan yazan epdlemflaj 2026-06-02 | Henüz yorum yok. | WhatsApp'ta paylaş

Yapay zeka kodlama asistanları kod üretme ve dağıtım hızını artırırken (hedef: üretkenlikte 4 kata kadar artış), insanların tek tek incelediği geleneksel SRE pratikleri artık ölçeklenemiyor — bu yazı, Google'ın SRE'yi yapay zeka çağına uygun şekilde nasıl yeniden tasarladığını özetliyor
Amaç yalnızca mevcut işleri yapay zekayla otomatikleştirmek değil; otonom azaltım ajanı (AI Operator), yürütme guardrail'leri (Actus) ve insan operasyon hafızasına dayalı sürekli değerlendirme hattı (IRM Analyzer) ile güvenilirlik için yeni bir temel kurmak
Prodüksiyondaki yapay zekada hata maliyeti çok yüksek olduğundan, kontrol "güvenlik üçlüsü" (Safety Trifecta) ile sağlanıyor: şeffaflık, gerçek zamanlı risk değerlendirmesi ve kademeli yetkilendirme
Otonomi, L0'dan (manuel) L4'e (tam otonom) kadar kademelendirilmiş; üst seviyeye çıkmak için golden data üzerinde istatistiksel olarak anlamlı başarı oranı kanıtlanmalı
SRE'nin rolü "operatörden mimara" kayıyor — insanlar artık satır bazlı kod incelemesi yerine tasarım, niyet, politika ve otonom ajanların güvenlik sınırlarını tanımlayarak soyutlama merdiveninde yukarı çıkıyor

SRE neden şimdi değişmek zorunda?

SLO, error budget ve toil azaltma gibi temel felsefeler hâlâ standart olsa da, "gezegensel ölçekte" hizmetler ile çok kiracılı iş yüklerinin karmaşıklığı artık yalnızca deterministik otomasyonla yönetilemiyor
Yapay zeka destekli geliştirme değişim hızını artırıyor, gözlemlenebilirlikteki boşluklar ise petabayt ölçeğinde yapılandırılmamış verilerle doluyor
Yapay zeka, basit bir araç olarak değil, servis yaşam döngüsünün tamamına nüfuz eden dönüştürücü bir katman olarak entegre ediliyor

Prodüksiyonda yapay zekayı kontrol etmek (AI-Ops yönetişimi)

Prodüksiyonda yapay zekanın yanlış davranması anında ve geniş çaplı kesintilere yol açabilir; blast radius insanlardan daha büyük olur ve daha hızlı yayılır
Başlıca zorluklar: insan uzmanlığının evrimi (operatör→mimar), açıklanabilirlik ve güven sağlama, veri bütünlüğü ve önyargıyı azaltma, model drift'e yanıt verme, güvenlik vektörlerine karşı savunma (adversarial attack, data poisoning, prompt injection), istenmeyen zincirleme arızaları önleme
Güvenlik üçlüsü (Safety Trifecta)
- Şeffaflık: ajanlar kullandıkları sinyalleri, hipotezleri, seçim gerekçelerini ve güven düzeylerini "düşünce zinciri" (Chain of Thought) olarak log'lara yazar
- Gerçek zamanlı risk değerlendirmesi: devam eden dağıtımlar, error budget, aktif incident'lar, saat dilimi gibi bağlama göre her eylemin riski değerlendirilir
- Kademeli yetkilendirme (Progressive Authorization): en baştan tam yetki vermek yerine, yetkiler otonomi seviyesine göre adım adım genişletilir
Mimari guardrail'ler: sürekli erişim yasağı ve en az ayrıcalık, ajana özel rate limit ve circuit breaker, zorunlu dry-run desteği, zero-trust ve varsayılan güvenli (safe-by-default) actuasyon

SRE yapay zeka otonomi seviyeleri (L0~L4)

Olgunluk, izleme, inceleme, onay, actuasyon ve self-direct yeteneklerindeki otomasyon derecesine göre tanımlanıyor
- L0 manuel: yalnızca izleme otomatik, diğer her şey insanlarda
- L1 destekli: incelemeye kadar otomatik (yapay zeka incident hipotezi sunar), onay ve yürütme insanlarda
- L2 kısmi otonom: yürütme de otomatik olabilir ama insanın açık onayı gerekir
- L3 yüksek otonom: iyi tanımlanmış senaryolarda onay ve actuasyon da otonomdur, insan sadece bilgilendirilir
- L4 tam otonom: tanılama, azaltım ve çözüm adımlarını kendi planlar ve uygular; sonuca göre stratejisini gerçek zamanlı ayarlar ve incident'ın tüm yaşam döngüsünü kapanışa kadar yönetir
Seviye yükseltmek basit bir anahtar değil; güven ve güvenlik kontrollerinin sağlanmasına dayalı yapılandırılmış bir yolculuktur

Değerlendirme verisi ve insan operasyon hafızası

İnsan Trajectory'si (Human Trajectory): sohbetler, incident notları, CLI gibi dağınık kayıtlar NLP ile ayrıştırılarak zaman sıralı olay dizilerine dönüştürülür (IRM-Analyzer)
Veri kalitesi katmanları: Bronze (otomatik etiketleyici sezgiselleri) / Silver (programatik üretim, gold standard'a göre kalibrasyon) / Gold (insan uzman doğrulaması)
Katmanlı örnekleme ile çeşitli incident'lar elle incelenerek gold veri oluşturulur; bunun üzerinden gerçek kesinlik (True Precision) ile gözlenen kesinlik ayrı ayrı ölçülür
Nightly Evals + LLM-as-a-Judge: yakın dönemdeki gerçek incident'larla her gün otomatik değerlendirme yapılır; nitel akıl yürütmeyi LLM değerlendirici, nihai azaltım çıktısını ise sıkı deterministik puanlama değerlendirir (ör. doğru binary ve sürüm tam eşleşmedikçe "doğru" sayılmaz)
Golden data, incident azaltım iş akışına doğal biçimde entegre edilir; böylece SRE'ler yalnızca kabul/düzeltme/reddetme yaparak sürekli yüksek kaliteli etiket sağlar

SRE yaşam döngüsünün tamamında yapay zeka kullanımı

Detectr (tespit): Gemini tabanlı olarak sosyal medya, müşteri desteği, forumlar gibi kullanıcı geri bildirimlerini filtreleme→kümeleme→gürültü giderme→raporlama aşamalarından geçen çok aşamalı bir pipeline ile işler; metrik tabanlı izlemenin kaçırdığı yeni tür arızaları yakalayan bir backstop görevi görür (Cloud, Ads, YouTube, Search'te kullanılıyor; toplamda yüzlerce saatlik etki azaltımı sağladı)
AI Alert (uyarı zenginleştirme): uyarı insana ulaşmadan önce yaklaşık 2 dakika içinde büyük ölçekte paralel biçimde izleme, log'lar, değişiklik kayıtları ve bağımlılık grafikleri sorgulanarak bağlam eklenir; tahmin değil, kaynak bağlantılarıyla doğrulanabilir yalnızca gerçekler sunulur (salt okunur)

L1: insan yönlendirmeli azaltım

Incident Hypothesis: LLM+RAG ile izleme anomalileri, playbook'lar, log'lar ve geçmiş benzer vakalar birleştirilerek en güçlü tek kök neden adayı ve doğrulama adımları sunulur → A/B testinde MTTM'de (ortalama azaltım süresi) %10 kısalma görüldü
İnceleme panosu (InvD): incident başına tek ekranda anlık görünüm üretir; anomali tespiti→sinyal korelasyonu→inceleme değerini belirleme→kök nedeni saptama şeklinde 4 aşamalı yetenek sunar ve 100'den fazla alan özelinde "troubleshooter"ı paralel çalıştırır → yalnızca ML tabanlı anomali tespitiyle keşif oranı %195 arttı, MTTM yaklaşık %44 kısaldı
Gemini tabanlı CLI (Antigravity CLI): Production Agent (MCP) üzerinden bug kaydı açma, sorumlu atama, postmortem dışa aktarma; gerçek zamanlı izleme sorguları, log analizi ve güvenli trafik drain gibi L1 incelemeleri yapar (skill kütüphanesiyle genişletilebilir)

L3: otonom azaltım

Maliyeti sabit tutarken 4 kat geliştirme hızını desteklemek için önerinin ötesine geçip doğrudan actuasyon gerekir; ancak bu, kademeli yetkilendirme altında L2'den (öneri + onay bekleme) başlayıp doğrulama sonrası L3/L4'e yükselerek yapılır
AI Operator: prodüksiyon uyarılarının ilk müdahale ajanı; paralel incelemeyle RCA yaptıktan sonra enricher, skill ve few-shot örnekleri dinamik olarak kullanarak azaltım seçer, CoT'yi merkezi UI'da gösterir, takıldığında anında insana eskalasyon yapar ve inceleme geçmişini aktarır; tüm yürütme izleri Spanner'a kaydedilir ve LLM-as-a-Judge bunları otomatik eleştirip bug kaydı açarak bir öz-iyileştirme döngüsü oluşturur
Actus (azaltım güvenlik doğrulama / actuasyon ajanı): yapay zekanın akıl yürütme motoru ile yürütme motorunu ayıran birleşik control plane — standartlaştırılmış araç kaydı ve planlama, dry-run ve gerekçe doğrulaması gibi ön güvenlik kontrolleri, risk algılandığında L3'ten L2'ye otomatik düşürme ve ayrıca tüm devam eden eylemleri anında durdurup L3 yetkilerini topluca geri alan acil durum "kırmızı düğmesi"

AI-Ops'u ayakta tutan teknoloji

Yüksek kaliteli prodüksiyon verisi ve metadata (telemetri, topoloji, geçmiş incident'lar, playbook'lar, SLO vb.)
RAG platformu, alana özel fine-tuning, yapay zeka dostu araç arayüzleri (MCP, Production Agent sunucusu)
Ajanları insanlardan ayıran güçlü ajan kimlik yönetimi (denetim, inkâr edememe)
Ajanlar arası iletişim protokolü (A2A) sayesinde uzman ajanların mikroservisler gibi birlikte çalışması

SRE'nin geleceği: agentic SDLC'de denetimin ölçeklenmesi

Yapay zekanın kodu planlayıp yazıp gözden geçirip göndererek değişiklik hacmini (CL) 4 ila 10 kat artırmaya yöneldiği bir akım var — satır bazlı inceleme burada sınırına dayanıyor, sonuç da gözden geçiren yorgunluğu ve biçimsel onay oluyor
İnsan denetimi sola kayıyor (shift left) ve soyutlama merdiveninde yukarı çıkarak tasarım, niyet ve politika incelemesine odaklanıyor
Bağımsız harness (Independent Harness) zorunluluğu: kod üreten yapay zeka ile test ve inceleme yapan yapay zekanın sıkı biçimde ayrılması, böylece çapraz önyargının engellenmesi
Uyarlanabilir kademeli rollout ve makine hızında sürekli prodüksiyon doğrulamasıyla mevcut soak time ve canary darboğazları aşılabilir
Araya giren Pull Request sorunu (Intervening Pull Request Problem): basit rollback, arada gelen bug fix ve güvenlik yamalarını da geri alma riski taşır → dinamik yapılandırma, feature flag'ler ve yapay zeka destekli Fix-Forward (hedefli yama otomatik üretimi ve dağıtımı) ile çözülür
Sonuç: SRE, sistemleri işletme rolünden, otonom ajanların güvenli biçimde inovasyon yapabileceği sınırları tasarlama rolüne dönüşüyor