GitHub'da şu anda bir kesinti yaşanıyor
(githubstatus.com)- Pull Requests performansında düşüş sürüyor ve
/pullsile/repo/pullssayfalarında indekslenmiş pull request'lerin tamamı görünmeyebilir - Şu anda Elasticsearch kümesinde tüm indekslenmiş belgeler bulunmuyor, ancak pull request verisinin kendisi kaybolmadı ve güncellendiğinde yeniden indeksleniyor
- Kalan indeksleri yeniden indeksleme çalışması ile tüm sonuçları geri yüklemek için full reindex hızlandırma çalışması birlikte sürdürülüyor; doğruluk ve ek etkilerden kaçınma öncelikleniyor
- Bileşen durum tablosunda yalnızca Pull Requests düşük performanslı olarak işaretleniyor; Git Operations, Webhooks, API Requests, Issues, Actions, Packages, Pages, Copilot, Codespaces ve Copilot AI Model Providers ise Operational durumda
- Yakın geçmişte arama performans düşüşü, Actions iş başarısızlıkları, Copilot agent oturumu başlatma başarısızlığı, merge queue regresyonu, Projects gecikmesi ve Codespaces bağlantı başarısızlığı gibi çeşitli kesinti örnekleri ve kurtarma önlemleri de birlikte paylaşıldı
Mevcut kesinti durumu
- Pull Requests tarafında performans düşüşü sürüyor ve Incomplete pull request results in repositories başlığı altında duyurulmuş durumda
/pullsve/repo/pullssayfalarında indekslenmiş pull request'lerin tamamı görünmeyebilir- Elasticsearch kümesinde şu anda tüm indekslenmiş belgeler bulunmuyor
- pull request verisinin kendisi kaybolmuş değil
- pull request güncellendiğinde yeniden indeksleniyor
- tüm sonuçları geri yüklemek için full reindex hızlandırma çalışması da eşzamanlı olarak sürüyor
- Kalan Elasticsearch indeksleri yeniden indeksleniyor; süreçte doğruluk önceliklendiriliyor ve ek etkilerden kaçınılıyor
- verileri güvenli şekilde backfill etmek için ihtiyatlı bir yaklaşım sürdürülüyor
Bileşen durumu
- Mevcut durum tablosunda yalnızca Pull Requests
Degraded Performanceolarak görünüyor - Diğer ana bileşenler
Operationaldurumda- Git Operations
- Webhooks
- API Requests
- Issues
- Actions
- Packages
- Pages
- Copilot
- Codespaces
- Copilot AI Model Providers
- Son 90 günlük erişilebilirlik oranları da paylaşılıyor
- Pull Requests %99.58 uptime
- API Requests %99.95 uptime
- Packages %99.97 uptime
- Copilot AI Model Providers %100.0 uptime
Bölgesel durum sayfaları ve abonelik yolları
- GitHub Enterprise Cloud için bölgelere özel durum sayfaları ayrıca sunuluyor
- Australia: au.githubstatus.com
- EU: eu.githubstatus.com
- Japan: jp.githubstatus.com
- US: us.githubstatus.com
- Durum bildirimleri için abonelik kanalları da mevcut
- Slack: Subscribe via Slack
- X hesabı: @githubstatus
- destek sitesi: support site
- akışlar: Atom Feed, RSS Feed
Yakın tarihli kesinti geçmişi
-
28 Nisan bazı GitHub hizmetlerinde kesinti
- Disruption with some GitHub services kaydı çözüldü
- Actions hosted Ubuntu işlerinde başlangıç gecikmesi ve başarısızlık yaşandı
ubuntu-latestveubuntu-24.04çalıştırmalarının bir kısmı gecikti veya başarısız oldu- bir noktada yaklaşık işlerin %5'i etkilendi, ardından %2'nin altına, daha sonra da %1'in altına düştü
- Actions çalıştırmalarını engelleyen sorun hafifletildi ve sonunda normal işleyişe dönüldü
-
27 Nisan GitHub arama performansında düşüş
- GitHub search is degraded kaydı çözüldü
- Elasticsearch bağlantı sorunu ve ek yük nedeniyle arama başarısızlıkları ile çeşitli alt hizmet sorunları birlikte yaşandı
- Issues, Pull Requests, Packages ve Actions etkilendi
- workflow run başarısızlıkları, projects yükleme başarısızlıkları ve search timeout'lar görüldü
- ek yükün nedeni engellendikten sonra toparlanma belirtileri görüldü ve ardından kararlılık izleme aşamasına geçildi
-
27 Nisan Copilot Cloud Agent Codex oturum kesintisi
- Disruption with some GitHub services kaydı çözüldü
- Copilot Cloud Agent içinde Codex agent oturumu başlatma başarısızlığı yaşandı
- issue atama ve
@copilotyorum mention'ı dahil tüm giriş noktalarında başlatılamadı - toplam Copilot Cloud Agent işlerinin %0.5'i, yaklaşık 2.000 başarısız iş etkilendi
- Copilot'un diğer agent oturumları etkilenmedi
- issue atama ve
- neden, Codex agent oturumlarında model resolution mismatch yüzünden çalışma zamanında uyumsuz bir modelin seçilmesiydi
- Codex agent oturumları için kararlı bir varsayılan model seçilmesini sağlayan hafifletici önlem dağıtıldı
Kök neden açıklaması paylaşılan başlıca vakalar
-
Pull Requests merge queue regresyonu
- Incident with Pull Requests çözüldü
- merge queue'da squash merge yöntemi kullanılırken merge group içinde iki veya daha fazla PR varsa hatalı bir merge commit oluşturuluyordu
- bunun sonucunda sonraki birleştirmelerde önceki PR değişiklikleri ve önceki commit değişiklikleri geri alınabiliyordu
- etki süresi boyunca 2.092 pull request etkilendi
- merge queue dışında birleştirilen PR'ler ile
mergeveyarebaseyöntemi kullanılan bazı gruplar etkilenmedi - neden, merge base hesaplamasını ayarlayan yeni kod yolunun tamamlanmamış feature flag gating durumunda devreye alınmasıydı
- kod değişikliği geri alındı ve tüm ortama zorunlu dağıtım yapıldı; etkilenen depo yöneticilerine kurtarma prosedürü ayrıca iletildi
- sonrasında çoklu PR squash gruplarını da kapsayacak şekilde merge correctness test kapsamı genişletiliyor
-
Claude ve Codex agent web üzerinden başlatılamadı
- Disruption with users unable to start Claude and Codex agent task from the web çözüldü
- github.com üzerinde Claude veya Codex agent ile yeni bir agent task başlatılamıyordu
- neden, Copilot mission control içindeki task creation request yönlendirme kodu değişikliğiydi
- devam eden agent task'ler ve diğer Copilot agent özellikleri etkilenmedi
- soruna yol açan değişiklik geri alındı ve task oluşturma yoluna ek izleme ve entegrasyon testleri ekleniyor
-
Copilot @mention işlemenin atlanması
- Disruption with some GitHub services çözüldü
- pull request yorumlarındaki
@copilotmention'ları Copilot coding agent çalıştırılmasına yol açmıyordu- toplam pull request ve issue yorumları içinde yaklaşık 23.000 çağrı, yani toplamın %0.5'i, işlenmedi
- yorum oluşturma, görüntüleme ve yanıtlama işlevlerinin kendisi etkilenmedi
- neden, etkinliklerin downstream consumer'a yayımlanmasını engelleyen bir serialization error idi
- event yayımını geri yükleyen düzeltme dağıtıldıktan sonra normal işleyişe dönüldü; ilgili event şeması denetimi ve izleme iyileştirmeleri sürüyor
-
Copilot Chat ve Cloud Agent kesintisi
- Disruption with Copilot chat and Copilot Coding Agent çözüldü
- github.com üzerindeki Copilot Chat ve Copilot Cloud Agent'ta hatalar oluştu ve bu süre boyunca kullanılamadılar
- preview durumundaki Copilot Memory de agent oturumlarında kullanılamadı
- neden, altyapı yapılandırma değişikliği nedeniyle oluşan veritabanı bağlantı sorunu oldu
- github.com önce geri yüklendi, diğer bölgesel dağıtımlar ise sırayla toparlandı
-
Projects hizmetinde gecikme
- Disruption with projects service çözüldü
- Projects tarafında senkronizasyon gerçekleşmeyebiliyor veya değişikliklerin yansıması gecikebiliyordu
- değişikliklerin yansıma gecikmesi en fazla yaklaşık 45 dakikaya çıktı
- neden, serialization error'un event başarısızlıklarına ve resync artışına yol açarak event işleme katmanını aşırı yüklemesiydi
- gelen değişikliklerin işlenme hızı artırılarak hafifletme sağlandı, ardından backlog eritilerek toparlanıldı
-
Kod tarama varsayılan kurulumu ve Code Quality performans düşüşü
- Partial degradation for code scanning default setup and for code quality çözüldü
- yeni pull request'lerde code scanning default setup ve code quality analizi tetiklenmiyordu
- yeni oluşturulan issue'ların project board üzerinde görünmemesi sorunu da yaşandı
- neden, serialization error yüzünden kod tarama, kod kalitesi analizi ve project board güncellemelerinin doğru şekilde tetiklenememesiydi
- code scanning ve code quality event yayımı geri yüklendi; project board tarafı ise ek kod değişikliği ve reindex ile toparlandı
- incident öncesinde veya sırasında işlenmeyen PR'lerde analizin yeniden tetiklenmesi için yeni bir push gerekmesi gerekiyor
Diğer yakın dönem kesinti örnekleri
- Disruption with some GitHub services
- GitHub.com web deneyimi kötüleşti ve yaklaşık web isteklerinin %1.5'i hata ile sonuçlandı
- bazı anlarda web trafiğinin yaklaşık %10'u yavaşladı veya başarısız oldu
- neden, bir veri merkezi bölgesindeki cache bileşeni kapasitesinin dolmasıydı
- trafik etkilenmeyen bölgelere yönlendirilip son dağıtımlar geri alınarak toparlanma sağlandı
- Incident with Codespaces
- VS Code editörü üzerinden GitHub Codespaces bağlantısı başarısız oldu
- yaklaşık codespace start işlerinin %40'ı başarısız oldu
- SSH bağlantısı etkilenmedi
- neden, upstream download service kesintisi yüzünden başlangıçta gerekli olan VS Code Server indirmesinin engellenmesiydi
- varsayılan endpoint kötüleştiğinde alternatif indirme yolunu kullanan bir geçici çözümle hafifletildi
- Disruption with some GitHub services
- GitHub Enterprise Cloud içindeki Copilot Insights sayfasına erişimde 500 hataları yaşandı
- yaklaşık 709 kullanıcı etkilendi ve toplam etki süresi yaklaşık 5 saat 10 dakika oldu
- neden, metrics pipeline kimlik doğrulama hatası ve tenant credential değişikliğiydi
- tanılama araçları, daha ayrıntılı izleme ve güçlendirilmiş alerting çalışmaları sürüyor
1 yorum
Hacker News yorumları
Şu anda asıl daha büyük sorun, sessizce başarısız olması
Örneğin ortada onlarca PR varken "There aren’t any open pull requests." diye gösterip insanları resmen yanıltıyor
Bu bana gerçekten çok dokunuyor
Birkaç ay önce $PARENT_CONGLOMERATE, sinerji ve verimlilik gerekçesiyle bağlı tüm organizasyonlarda GitHub'a geçişi zorunlu kıldı; şimdi de $DAYJOB tarafında self-hosted GitLab'dan geçme sırası bize geldi
Şimdiden birkaç şikayetim var
GH hesabı ile ilgili IT politikası baştan sona tutarsız; kişisel hesap ya da eskiden $DAYJOB için ayrı açılmış hesap fark etmeksizin mevcut hesapların hiçbirini kullanamıyoruz ve IT kurallarına uygun yeni bir hesap açmamız gerekiyor
Biz monorepo kullanmadığımız için groups özelliğini çok kullanıyorduk ama GitHub'da bunun doğrudan bir karşılığı yok; bu yüzden proje namespace'lerini elle düzenlemek gerekiyor
Bir de şimdi GitHub'ın erişilebilirliği bu halde
Ekibimizin yayın takvimi gelir açısından hassas; sadece bir iki günlük gecikme bile aylık hedeflerin tutup tutmayacağını belirleyebilir
Başka bir durumda gelir açısından kritik kodu önceden mirror'lardık ama böyle gerilla usulü bir geçici çözüm kuracak kadar risk almaya değmez gibi görünüyor
Yakın gelecekteki bir postmortem'de The Synergy Mandate'i suçlayabilmeyi isterdim ama gerçekte bunun olmayacağını ben de gayet iyi biliyorum
Tek umudum gelir hedeflerini tutturmaya devam edip ürünün zayıf performans yüzünden kesilmemesi
Bunu yazarken, işe ilk başladığım zamana göre bu işin şimdi ne kadar farklılaştığını daha da fazla hissediyorum
Bunu tüm OSS projelerine tekrar söylemek istiyorum
Basit bir CI işiyle kodu birden fazla forge arasında senkronize etmek inanılmaz kolay ve ikinci bir forge'dan e-posta bildirimi almak da neredeyse hiç ek yük getirmiyor
En azından GitHub dışına taşınarak katkı vermek için bir seçenek açık bırakılmalı; sonuçta bu tüm ekosistem için daha iyi
Çoğu projede o bile çok gerekli olmayabilir
Zor olan, kodun etrafındaki şeyler
ticket'lar ve PR'lar, kapatılmış olanların geçmişi dahil
projeye referans veren türlü bağlantılar
CI yapılandırması
büyük projelerde committer yetkilerinin kurgusu
gerekirse push/commit/branch kurallarının tamamı
Bunlar projeden projeye taşınması çok zahmetli şeyler ve bazılarında veri kaybı da olabilir
Ama daha büyük sorun, yazılımı bulmak için kullanılan temel platformu kaybetmek
Yazılım dünyasının fediverse'ü ne zaman gelecek diye düşünüyorum
Hâlâ GitHub Actions en iyi seçenek ve ne FSF ne de başka bir OSS laboratuvarı, açık kaynak bakımcılarına düzgün bir CI sağlayabildi
Üstelik CI yükü de eskisine göre inanılmaz arttı
Artık ciddi ciddi alternatifleri öne çıkarmak gerektiğini düşünüyorum
Bunun işimize gerçek etkisi olmaya başladı ve düzeleceğine dair de hiçbir işaret yok
org/repo yapı kısıtını kabul etmeniz gerekir
Benzer ama biraz farklı bir deneyim istiyorsanız GitLab uygun
Kernel tarafına daha yakın bir yaklaşım, yani hosting ve esnek depo yapısı, ssh key tabanlı kullanıcı kimlik doğrulaması ve sade bir web UI istiyorsanız gitolite üstüne cgit ekleyebilir ya da gitweb kullanabilirsiniz
Gitea da Forgejo da sundukları özellikler ihtiyaçlarınıza uyuyorsa fazlasıyla yeterli
Arada bir GitHub kesinti başlıklarına gelip gülüyorum; bizim Gitea instance'ının son birkaç yıldaki toplam kesinti süresi birkaç dakikayı ancak buldu ve onların da hepsi gece yarısı yapılan planlı yükseltmelerdi
Birebir kopya olmasa da yeterince yakın; bence aradaki fark portakal ile elma değil, elma ile armut kadar
Ama GitHub gerçekten yapışkan bir platform; actions ve her türlü entegrasyonu kurunca ayrılmak zorlaşıyor
Yine de kesintilerin bu kadar sık olması artık biraz saçma bir seviyeye geldi
Bu yalnızca GitHub'a özgü değil gibi, daha geniş çaplı bir kesinti gibi görünüyor: https://downdetector.com
Günün sonunda yine adında y harfi olan bir günse, demek ki yine GitHub kesintisi vardır
Codeberg.org tarafında da şu an sorun var
https://status.codeberg.org/status/codeberg
https://social.anoxinon.de/@codebergstatus/11647770704799298...
GitHub'ın çökmesinden de hoşlanmıyor, yapay zekanın kod çalmasından da hoşlanmıyorsanız sourcehut'a bakabilirsiniz
Bana çok iyi uydu ve platform olarak daha da gelişmesini isterim
Sonuçta o da başka bir merkezi hizmet değil mi?
Bu seferki özellikle uzun sürdü gibi geliyor
Düzeltmeye çalışan ekibin Claude oturum limitine takıldığı, cooldown bitene kadar ellerinin kollarının bağlı olduğu ve yapay zeka olmadan bunu gerçekten düzeltebilen tek kişinin de ameliyatta olduğu yönünde bir şaka aklıma geliyor
Yapay zeka olmadan elle düzeltme yapan neslin tamamı emekli olunca sonra ne olacak diye de düşünmeden edemiyorum
GitHub her çöktüğünde birkaç kişi daha etik alternatiflere geçiyor ve FOSS topluluğunun Microsoft üzerinde tek bir SPOF bulunduran yapısı da biraz daha zayıflıyor
https://sfconservancy.org/GiveUpGitHub/
İşbirliğini kolaylaştırıyordu; şimdi ise çeşitli nedenlerle sürtünme artıyor
issue'ların spam gibi kullanılması da arttı ve bunun ötesinde daha kötü niyetli faaliyetler de giderek görünür olmaya başladı