1 puan yazan GN⁺ 1 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Pull Requests performansında düşüş sürüyor ve /pulls ile /repo/pulls sayfalarında indekslenmiş pull request'lerin tamamı görünmeyebilir
  • Şu anda Elasticsearch kümesinde tüm indekslenmiş belgeler bulunmuyor, ancak pull request verisinin kendisi kaybolmadı ve güncellendiğinde yeniden indeksleniyor
  • Kalan indeksleri yeniden indeksleme çalışması ile tüm sonuçları geri yüklemek için full reindex hızlandırma çalışması birlikte sürdürülüyor; doğruluk ve ek etkilerden kaçınma öncelikleniyor
  • Bileşen durum tablosunda yalnızca Pull Requests düşük performanslı olarak işaretleniyor; Git Operations, Webhooks, API Requests, Issues, Actions, Packages, Pages, Copilot, Codespaces ve Copilot AI Model Providers ise Operational durumda
  • Yakın geçmişte arama performans düşüşü, Actions iş başarısızlıkları, Copilot agent oturumu başlatma başarısızlığı, merge queue regresyonu, Projects gecikmesi ve Codespaces bağlantı başarısızlığı gibi çeşitli kesinti örnekleri ve kurtarma önlemleri de birlikte paylaşıldı

Mevcut kesinti durumu

  • Pull Requests tarafında performans düşüşü sürüyor ve Incomplete pull request results in repositories başlığı altında duyurulmuş durumda
  • /pulls ve /repo/pulls sayfalarında indekslenmiş pull request'lerin tamamı görünmeyebilir
    • Elasticsearch kümesinde şu anda tüm indekslenmiş belgeler bulunmuyor
    • pull request verisinin kendisi kaybolmuş değil
    • pull request güncellendiğinde yeniden indeksleniyor
    • tüm sonuçları geri yüklemek için full reindex hızlandırma çalışması da eşzamanlı olarak sürüyor
  • Kalan Elasticsearch indeksleri yeniden indeksleniyor; süreçte doğruluk önceliklendiriliyor ve ek etkilerden kaçınılıyor
    • verileri güvenli şekilde backfill etmek için ihtiyatlı bir yaklaşım sürdürülüyor

Bileşen durumu

  • Mevcut durum tablosunda yalnızca Pull Requests Degraded Performance olarak görünüyor
  • Diğer ana bileşenler Operational durumda
    • Git Operations
    • Webhooks
    • API Requests
    • Issues
    • Actions
    • Packages
    • Pages
    • Copilot
    • Codespaces
    • Copilot AI Model Providers
  • Son 90 günlük erişilebilirlik oranları da paylaşılıyor
    • Pull Requests %99.58 uptime
    • API Requests %99.95 uptime
    • Packages %99.97 uptime
    • Copilot AI Model Providers %100.0 uptime

Bölgesel durum sayfaları ve abonelik yolları

Yakın tarihli kesinti geçmişi

  • 28 Nisan bazı GitHub hizmetlerinde kesinti

    • Disruption with some GitHub services kaydı çözüldü
    • Actions hosted Ubuntu işlerinde başlangıç gecikmesi ve başarısızlık yaşandı
      • ubuntu-latest ve ubuntu-24.04 çalıştırmalarının bir kısmı gecikti veya başarısız oldu
      • bir noktada yaklaşık işlerin %5'i etkilendi, ardından %2'nin altına, daha sonra da %1'in altına düştü
    • Actions çalıştırmalarını engelleyen sorun hafifletildi ve sonunda normal işleyişe dönüldü
  • 27 Nisan GitHub arama performansında düşüş

    • GitHub search is degraded kaydı çözüldü
    • Elasticsearch bağlantı sorunu ve ek yük nedeniyle arama başarısızlıkları ile çeşitli alt hizmet sorunları birlikte yaşandı
      • Issues, Pull Requests, Packages ve Actions etkilendi
      • workflow run başarısızlıkları, projects yükleme başarısızlıkları ve search timeout'lar görüldü
    • ek yükün nedeni engellendikten sonra toparlanma belirtileri görüldü ve ardından kararlılık izleme aşamasına geçildi
  • 27 Nisan Copilot Cloud Agent Codex oturum kesintisi

    • Disruption with some GitHub services kaydı çözüldü
    • Copilot Cloud Agent içinde Codex agent oturumu başlatma başarısızlığı yaşandı
      • issue atama ve @copilot yorum mention'ı dahil tüm giriş noktalarında başlatılamadı
      • toplam Copilot Cloud Agent işlerinin %0.5'i, yaklaşık 2.000 başarısız iş etkilendi
      • Copilot'un diğer agent oturumları etkilenmedi
    • neden, Codex agent oturumlarında model resolution mismatch yüzünden çalışma zamanında uyumsuz bir modelin seçilmesiydi
    • Codex agent oturumları için kararlı bir varsayılan model seçilmesini sağlayan hafifletici önlem dağıtıldı

Kök neden açıklaması paylaşılan başlıca vakalar

  • Pull Requests merge queue regresyonu

    • Incident with Pull Requests çözüldü
    • merge queue'da squash merge yöntemi kullanılırken merge group içinde iki veya daha fazla PR varsa hatalı bir merge commit oluşturuluyordu
      • bunun sonucunda sonraki birleştirmelerde önceki PR değişiklikleri ve önceki commit değişiklikleri geri alınabiliyordu
      • etki süresi boyunca 2.092 pull request etkilendi
    • merge queue dışında birleştirilen PR'ler ile merge veya rebase yöntemi kullanılan bazı gruplar etkilenmedi
    • neden, merge base hesaplamasını ayarlayan yeni kod yolunun tamamlanmamış feature flag gating durumunda devreye alınmasıydı
    • kod değişikliği geri alındı ve tüm ortama zorunlu dağıtım yapıldı; etkilenen depo yöneticilerine kurtarma prosedürü ayrıca iletildi
    • sonrasında çoklu PR squash gruplarını da kapsayacak şekilde merge correctness test kapsamı genişletiliyor
  • Claude ve Codex agent web üzerinden başlatılamadı

    • Disruption with users unable to start Claude and Codex agent task from the web çözüldü
    • github.com üzerinde Claude veya Codex agent ile yeni bir agent task başlatılamıyordu
    • neden, Copilot mission control içindeki task creation request yönlendirme kodu değişikliğiydi
    • devam eden agent task'ler ve diğer Copilot agent özellikleri etkilenmedi
    • soruna yol açan değişiklik geri alındı ve task oluşturma yoluna ek izleme ve entegrasyon testleri ekleniyor
  • Copilot @mention işlemenin atlanması

    • Disruption with some GitHub services çözüldü
    • pull request yorumlarındaki @copilot mention'ları Copilot coding agent çalıştırılmasına yol açmıyordu
      • toplam pull request ve issue yorumları içinde yaklaşık 23.000 çağrı, yani toplamın %0.5'i, işlenmedi
      • yorum oluşturma, görüntüleme ve yanıtlama işlevlerinin kendisi etkilenmedi
    • neden, etkinliklerin downstream consumer'a yayımlanmasını engelleyen bir serialization error idi
    • event yayımını geri yükleyen düzeltme dağıtıldıktan sonra normal işleyişe dönüldü; ilgili event şeması denetimi ve izleme iyileştirmeleri sürüyor
  • Copilot Chat ve Cloud Agent kesintisi

    • Disruption with Copilot chat and Copilot Coding Agent çözüldü
    • github.com üzerindeki Copilot Chat ve Copilot Cloud Agent'ta hatalar oluştu ve bu süre boyunca kullanılamadılar
    • preview durumundaki Copilot Memory de agent oturumlarında kullanılamadı
    • neden, altyapı yapılandırma değişikliği nedeniyle oluşan veritabanı bağlantı sorunu oldu
    • github.com önce geri yüklendi, diğer bölgesel dağıtımlar ise sırayla toparlandı
  • Projects hizmetinde gecikme

    • Disruption with projects service çözüldü
    • Projects tarafında senkronizasyon gerçekleşmeyebiliyor veya değişikliklerin yansıması gecikebiliyordu
      • değişikliklerin yansıma gecikmesi en fazla yaklaşık 45 dakikaya çıktı
    • neden, serialization error'un event başarısızlıklarına ve resync artışına yol açarak event işleme katmanını aşırı yüklemesiydi
    • gelen değişikliklerin işlenme hızı artırılarak hafifletme sağlandı, ardından backlog eritilerek toparlanıldı
  • Kod tarama varsayılan kurulumu ve Code Quality performans düşüşü

    • Partial degradation for code scanning default setup and for code quality çözüldü
    • yeni pull request'lerde code scanning default setup ve code quality analizi tetiklenmiyordu
    • yeni oluşturulan issue'ların project board üzerinde görünmemesi sorunu da yaşandı
    • neden, serialization error yüzünden kod tarama, kod kalitesi analizi ve project board güncellemelerinin doğru şekilde tetiklenememesiydi
    • code scanning ve code quality event yayımı geri yüklendi; project board tarafı ise ek kod değişikliği ve reindex ile toparlandı
    • incident öncesinde veya sırasında işlenmeyen PR'lerde analizin yeniden tetiklenmesi için yeni bir push gerekmesi gerekiyor

Diğer yakın dönem kesinti örnekleri

  • Disruption with some GitHub services
    • GitHub.com web deneyimi kötüleşti ve yaklaşık web isteklerinin %1.5'i hata ile sonuçlandı
    • bazı anlarda web trafiğinin yaklaşık %10'u yavaşladı veya başarısız oldu
    • neden, bir veri merkezi bölgesindeki cache bileşeni kapasitesinin dolmasıydı
    • trafik etkilenmeyen bölgelere yönlendirilip son dağıtımlar geri alınarak toparlanma sağlandı
  • Incident with Codespaces
    • VS Code editörü üzerinden GitHub Codespaces bağlantısı başarısız oldu
    • yaklaşık codespace start işlerinin %40'ı başarısız oldu
    • SSH bağlantısı etkilenmedi
    • neden, upstream download service kesintisi yüzünden başlangıçta gerekli olan VS Code Server indirmesinin engellenmesiydi
    • varsayılan endpoint kötüleştiğinde alternatif indirme yolunu kullanan bir geçici çözümle hafifletildi
  • Disruption with some GitHub services
    • GitHub Enterprise Cloud içindeki Copilot Insights sayfasına erişimde 500 hataları yaşandı
    • yaklaşık 709 kullanıcı etkilendi ve toplam etki süresi yaklaşık 5 saat 10 dakika oldu
    • neden, metrics pipeline kimlik doğrulama hatası ve tenant credential değişikliğiydi
    • tanılama araçları, daha ayrıntılı izleme ve güçlendirilmiş alerting çalışmaları sürüyor

1 yorum

 
GN⁺ 1 일 전
Hacker News yorumları
  • Şu anda asıl daha büyük sorun, sessizce başarısız olması
    Örneğin ortada onlarca PR varken "There aren’t any open pull requests." diye gösterip insanları resmen yanıltıyor

    • Geçen hafta da merge queue kullanınca yanlışlıkla trunk'ı uçurduğu bir olay olmuştu, o da sessizce başarısız olmuştu
    • Bizde ise tam tersine, sanki sonunda bütün PR'ları bitirmişiz gibi göründüğü için kutluyoruz diye şaka dönüyor
    • PR listesi açılsa bile baktığınız kategorideki PR'ların tamamını göstermediği durumlar var; bu da işi gerçekten beter ediyor
  • Bu bana gerçekten çok dokunuyor
    Birkaç ay önce $PARENT_CONGLOMERATE, sinerji ve verimlilik gerekçesiyle bağlı tüm organizasyonlarda GitHub'a geçişi zorunlu kıldı; şimdi de $DAYJOB tarafında self-hosted GitLab'dan geçme sırası bize geldi
    Şimdiden birkaç şikayetim var
    GH hesabı ile ilgili IT politikası baştan sona tutarsız; kişisel hesap ya da eskiden $DAYJOB için ayrı açılmış hesap fark etmeksizin mevcut hesapların hiçbirini kullanamıyoruz ve IT kurallarına uygun yeni bir hesap açmamız gerekiyor
    Biz monorepo kullanmadığımız için groups özelliğini çok kullanıyorduk ama GitHub'da bunun doğrudan bir karşılığı yok; bu yüzden proje namespace'lerini elle düzenlemek gerekiyor
    Bir de şimdi GitHub'ın erişilebilirliği bu halde
    Ekibimizin yayın takvimi gelir açısından hassas; sadece bir iki günlük gecikme bile aylık hedeflerin tutup tutmayacağını belirleyebilir
    Başka bir durumda gelir açısından kritik kodu önceden mirror'lardık ama böyle gerilla usulü bir geçici çözüm kuracak kadar risk almaya değmez gibi görünüyor
    Yakın gelecekteki bir postmortem'de The Synergy Mandate'i suçlayabilmeyi isterdim ama gerçekte bunun olmayacağını ben de gayet iyi biliyorum
    Tek umudum gelir hedeflerini tutturmaya devam edip ürünün zayıf performans yüzünden kesilmemesi
    Bunu yazarken, işe ilk başladığım zamana göre bu işin şimdi ne kadar farklılaştığını daha da fazla hissediyorum

  • Bunu tüm OSS projelerine tekrar söylemek istiyorum
    Basit bir CI işiyle kodu birden fazla forge arasında senkronize etmek inanılmaz kolay ve ikinci bir forge'dan e-posta bildirimi almak da neredeyse hiç ek yük getirmiyor
    En azından GitHub dışına taşınarak katkı vermek için bir seçenek açık bırakılmalı; sonuçta bu tüm ekosistem için daha iyi

    • Kod senkronizasyonu başlı başına kolay ve küçük bir kısım; CI işi aslında sadece o kısmı çözüyor
      Çoğu projede o bile çok gerekli olmayabilir
      Zor olan, kodun etrafındaki şeyler
      ticket'lar ve PR'lar, kapatılmış olanların geçmişi dahil
      projeye referans veren türlü bağlantılar
      CI yapılandırması
      büyük projelerde committer yetkilerinin kurgusu
      gerekirse push/commit/branch kurallarının tamamı
      Bunlar projeden projeye taşınması çok zahmetli şeyler ve bazılarında veri kaybı da olabilir
      Ama daha büyük sorun, yazılımı bulmak için kullanılan temel platformu kaybetmek
      Yazılım dünyasının fediverse'ü ne zaman gelecek diye düşünüyorum
    • Senkronizasyon küçük bir mesele ama asıl kritik olan CI
      Hâlâ GitHub Actions en iyi seçenek ve ne FSF ne de başka bir OSS laboratuvarı, açık kaynak bakımcılarına düzgün bir CI sağlayabildi
      Üstelik CI yükü de eskisine göre inanılmaz arttı
    • Kendi GitLab instance'ını kurmak da iyi bir çözüm olabilir
  • Artık ciddi ciddi alternatifleri öne çıkarmak gerektiğini düşünüyorum
    Bunun işimize gerçek etkisi olmaya başladı ve düzeleceğine dair de hiçbir işaret yok

    • GitHub benzeri bir UI istiyorsanız Forgejo ya da Gitea kullanabilirsiniz
      org/repo yapı kısıtını kabul etmeniz gerekir
      Benzer ama biraz farklı bir deneyim istiyorsanız GitLab uygun
      Kernel tarafına daha yakın bir yaklaşım, yani hosting ve esnek depo yapısı, ssh key tabanlı kullanıcı kimlik doğrulaması ve sade bir web UI istiyorsanız gitolite üstüne cgit ekleyebilir ya da gitweb kullanabilirsiniz
    • Biz yıllardır Gitea ve Drone/Woodpecker'ı self-hosted olarak kullanıyoruz ve gayet iyi çalışıyor
      Gitea da Forgejo da sundukları özellikler ihtiyaçlarınıza uyuyorsa fazlasıyla yeterli
      Arada bir GitHub kesinti başlıklarına gelip gülüyorum; bizim Gitea instance'ının son birkaç yıldaki toplam kesinti süresi birkaç dakikayı ancak buldu ve onların da hepsi gece yarısı yapılan planlı yükseltmelerdi
    • GitLab'ın daha fazla ilgi görmemesi şaşırtıcı
      Birebir kopya olmasa da yeterince yakın; bence aradaki fark portakal ile elma değil, elma ile armut kadar
    • Ben de aynı düşüncedeydim
      Ama GitHub gerçekten yapışkan bir platform; actions ve her türlü entegrasyonu kurunca ayrılmak zorlaşıyor
      Yine de kesintilerin bu kadar sık olması artık biraz saçma bir seviyeye geldi
    • Şu anda Forgejo ile Git ve CI'ı self-hosted kullanıyorum ve çok memnunum; sorunsuz çalışıyor
  • Bu yalnızca GitHub'a özgü değil gibi, daha geniş çaplı bir kesinti gibi görünüyor: https://downdetector.com

    • Ortak payda büyük ihtimalle Azure
  • Günün sonunda yine adında y harfi olan bir günse, demek ki yine GitHub kesintisi vardır

  • Codeberg.org tarafında da şu an sorun var

    https://status.codeberg.org/status/codeberg

    https://social.anoxinon.de/@codebergstatus/11647770704799298...

  • GitHub'ın çökmesinden de hoşlanmıyor, yapay zekanın kod çalmasından da hoşlanmıyorsanız sourcehut'a bakabilirsiniz
    Bana çok iyi uydu ve platform olarak daha da gelişmesini isterim

    • Yeni depolar keşfetme deneyimini sevdiğim için ben her şeyi Codeberg'e taşıdım; ilgilendiğim projelerin çoğu da zaten orada
    • sourcehut'un neyi farklı yaptığını anlamıyorum
      Sonuçta o da başka bir merkezi hizmet değil mi?
  • Bu seferki özellikle uzun sürdü gibi geliyor
    Düzeltmeye çalışan ekibin Claude oturum limitine takıldığı, cooldown bitene kadar ellerinin kollarının bağlı olduğu ve yapay zeka olmadan bunu gerçekten düzeltebilen tek kişinin de ameliyatta olduğu yönünde bir şaka aklıma geliyor
    Yapay zeka olmadan elle düzeltme yapan neslin tamamı emekli olunca sonra ne olacak diye de düşünmeden edemiyorum

  • GitHub her çöktüğünde birkaç kişi daha etik alternatiflere geçiyor ve FOSS topluluğunun Microsoft üzerinde tek bir SPOF bulunduran yapısı da biraz daha zayıflıyor

    https://sfconservancy.org/GiveUpGitHub/

    • O fikre katılıyorum ama birçok projenin GitHub'da toplanmasının belirgin bir sosyal yönü de vardı
      İşbirliğini kolaylaştırıyordu; şimdi ise çeşitli nedenlerle sürtünme artıyor
      issue'ların spam gibi kullanılması da arttı ve bunun ötesinde daha kötü niyetli faaliyetler de giderek görünür olmaya başladı
    • SPOF, Single Point of Failure kısaltmasıdır