Bugün, Amazon’daki yetenek kaybı nedeniyle AWS’nin sonunda bozulduğu gün

(theregister.com)

44 puan yazan GN⁺ 2025-10-21 | 8 yorum | WhatsApp'ta paylaş

Bu AWS US-EAST-1 bölgesi kesintisi, yalnızca teknik bir arıza değil, çekirdek kadronun kaybının yol açtığı kurumsal zayıflamanın bir işareti olarak değerlendiriliyor
Kesintinin nedeninin hâlâ klasik bir DNS sorunu olduğu ortaya çıktı; DynamoDB API endpoint hatası diğer servislerin de zincirleme şekilde durmasına yol açtı
Geçmişte sistemin hata kalıplarını hatırlayan kıdemli mühendislerin ayrılması, sorunun tespit ve toparlanma hızını belirgin biçimde yavaşlatmış görünüyor
Amazon içindeki büyük ölçekli işten çıkarmalar ve yüksek “pişman olunan ayrılma oranı (%69~81)” birlikte etkili olarak AWS’nin operasyonel istikrarını sarsıyor
Bu, teknolojinin eskimesinden değil, insan eksikliğinden kaynaklanan bir kriz; AWS için “tek seferlik bir olaydan” çok sürekli bir güven erozyonunun habercisi olarak yorumlanıyor

DNS arızası ve hizmet kesintisi

Sistem yöneticileri arasında uzun süredir dolaşan "It's always DNS" şakasında olduğu gibi, birçok hizmet kesintisinin merkezinde yine DNS sorunları yer alıyor
20 Ekim 2025 12:11AM (PDT) itibarıyla US-EAST-1 bölgesindeki AWS servislerinde hata oranında ani artış bildirildi
- 1:26AM’de DynamoDB endpoint isteklerindeki başarısızlıklar yoğunlaşmaya başladı
- 2:01AM’de nedenin DynamoDB API endpoint’inde DNS resolution hatası olduğu doğrulandı ve çok sayıda bağımlı servis zincirleme kesinti yaşadı
DynamoDB, AWS altyapısının temel servislerinden biri olduğu için, o bölgedeki servis çöktüğünde internetin geniş bir kısmı etkileniyor
- Bankalar, oyunlar, sosyal ağlar, devlet hizmetleri ve Amazon.com alışverişi dahil geniş çaplı aksama yaşandı
Sorunun fark edilmesinden kök nedenin belirlenmesine kadar 75 dakika geçti; bu, AWS’nin “örnek toparlanma hızı” geleneği düşünüldüğünde alışılmadık derecede yavaş bir yanıt
- Kesintinin fark edilmesiyle nedenin tespiti arasında önemli süre geçmesi, şeffaflık eksikliğinden çok deneyim eksikliğine bağlanıyor
- Durum sayfasında bu süre boyunca yalnızca “normal şekilde çalışıyor” mesajı gösterildi ve bu da topluluğun eleştirisini çekti

‘Kehanet’in gerçekleşmesi: ayrılanların uyarısı

AWS geleneksel olarak tek bir region’da bile kesinti yaşansa büyük olay sayılacak kadar yüksek düzeyde altyapı işletme becerisiyle övünüyordu; ancak karmaşıklık arttıkça ve geçmişe benzer sorunlar tekrarlandıkça sahadaki deneyim daha kritik hale geliyor
AWS’nin eski mühendislerinden Justin Garrison, 2023’te ayrılırken “büyük ölçekli olayların (LSE) arttığı” uyarısında bulunmuştu
- Kendisi “2024’te büyük bir kesinti yaşanacağını” öngörmüş, bu olay da adeta bunu doğrulamış oldu
AWS içinde üst düzey teknik çalışanların peş peşe ayrılması sürerken,
on yıllar boyunca birikmiş tribal knowledge (kurum içi deneyime dayalı bilgi) de beraberinde kayboldu
DNS arızası gibi durumlarda, yalnızca teknik nedeni bilen kişilerden ziyade,
“bu sistem geçmişte benzer bir soruna yol açmış mıydı?” sorusunu hatırlayan insanlara ihtiyaç var
- Ancak bu hafızayı taşıyan kişiler RTO (ofise dönüş politikası) tepkisi ve işten çıkarmalar nedeniyle şirketten ayrıldı

Yetenek kaybının kanıtları

2022 ile 2025 arasında 27.000’den fazla Amazon çalışanı işten çıkarıldı;
departman bazındaki oranlar açıklanmasa da AWS’nin de doğrudan etkilendiği tahmin ediliyor
İç belgelere göre “pişman olunan ayrılma oranı” %69~81 seviyesinde;
bu da “şirketin tutmak istediği çalışanların” ayrıldığı anlamına geliyor
Return to Office (ofise dönüş) emri nedeniyle memnuniyetsizlik patlarken,
deneyimli kıdemli mühendislerin toplu şekilde ayrıldığına dair çok sayıda işaret bildiriliyor
Sonuç olarak AWS, deneyimi daha az ve maliyeti daha düşük ekiplerle yeniden şekillendi;
bu da karmaşık altyapıları işletme kapasitesini giderek zayıflatıyor

Yapısal sorun: ‘Frugality’nin bozulması

Geçmişte Amazon’un temel değerlerinden biri olan Frugality (tutumluluk),
“az kaynakla verimliliği en üst düzeye çıkarma” felsefesiydi
Ancak son dönemde bu, “neredeyse hiç kaynak olmadan her işi yürütme” anlamına kaymış görünüyor
- Personel azaltımı nedeniyle temel bakım çalışmalarının bile zorlaştığı bir düzeye gelindi
Sorun, “teknoloji eski olduğu için değil, onu ayakta tutan insanlar yeni olduğu için” ortaya çıkıyor

Bundan sonrası

Piyasa bu kesintiyi tek seferlik bir olay gibi görecektir, ancak sorunun yapısı kalıcı
- Deneyimli çalışanlar ayrılıyor, sistem karmaşıklığı artıyor ve
  “bir sonraki olayın” olasılığı giderek yükselen döngüsel bir yapı oluşuyor
AWS muhtemelen bu olayı “izole bir tekil kesinti” olarak sunacaktır,
ancak iç boşalma birikirse benzer büyük ölçekli kesintilerin tekrarlanma riski yüksek
“chickens are coming home to roost” ifadesinde olduğu gibi,
AWS için en büyük riskin teknoloji değil insan sermayesinin kaybı olduğu öne çıkıyor

8 yorum

jjw9512151 2025-10-23

İnsanların yaşadığı her yer aynı galiba..

t7vonn 2025-10-21

multi-az’ye kadar yapmıştık ama... artık bölge düzeyindeki kesintilere karşı da hazırlık yapmamız mı gerekiyor acaba..

skageektp 2025-10-22

Bence bu maliyetin gerçekten kayıp maliyetinden daha büyük olup olmadığını da değerlendirmek gerekir.

shakespeares 2025-10-21

Her pazarda geçerli olan bir hikâye.
Görünüşe göre BT teknolojisindeki bilgi birikimine, usta bir kaynakçının bilgi birikimine benzer şekilde değer vermek gerekiyor.

bus710 2025-10-21

Bir süre önce gördüğüm bir yazıdan,
Amazon’da senior engineer level 2’den bir sonrakine geçmenin gerçekten çok zor olduğuna dair sözü hatırlıyorum nedense.
Sanırım bu tür üzücü ayrılıklar özellikle o aralıkta daha sık yaşanıyor olabilir.

GN⁺ 2025-10-21

Hacker News yorumu

Mühendis çalışanlarla depo işçileri arasında, çalışanları böyle durmadan işten çıkarmaya devam ederlerse yakında eskiden bu şirkette çalışmış olanların bile tamamen uzaklaşacağı düşüncesi oluşuyor.
Yüz binlerce H1-B mühendis adayı ve on milyonlarca yasadışı göçmen depo işçisi olsa bile, bu kadar büyük bir şirket hızlı ve kitlesel işten çıkarmalara giderse sonunda insan kaynağını tüketmesi kaçınılmaz.
Bu durum bana Robot Chicken'ın Star Wars parodi bölümünü hatırlatıyor. Orada İmparatorluk subayları, Darth Vader Force choke yapıyormuş gibi davranınca ışın kılıcıyla doğranmamak için ölmüş numarası yapıp kaçıyor, sonra da başka isimlerle geri dönüyordu; Amazon bundan da beter. Kimse geri dönmek istemiyor.
https://www.youtube.com/watch?v=fFihTRIxCkg
- Dürüst olayım, az çok yetenekli bir mühendisin Amazon'da ikinci kez çalışmak istediğini hiç görmedim.
- Depolarda gerçekten bu kadar çok yasadışı göçmen mi var? Amazon'un kimlik eşleştirmesi yaptığını ve evrakları dikkatle kontrol ettiğini sanıyordum; arada kimlik hırsızlığı yapan biri olabilir ama bunun çok yaygın olduğunu sanmıyorum.
- Sorun sadece işten çıkarmalar değil; Amazon tam kapsamlı RTO'ya geçer geçmez recruiter e-postası bombardımanına tutulduğumu hatırlıyorum.
- Sırf H-1B olduğu için mühendislik becerisine dair önyargı oluşan bir hava var gibi.
  Ben de eskiden H-1B ile çalıştım, şimdi Hindistan'a dönüp kendi işimi kuruyorum. Amazon çıkışlıyım. Zor bir yerdi ama 90'ların ortalarında hisse opsiyonları olduğu için çalışmaya değerdi.
  Buradaki insanların hatırı sayılır bir kısmından daha iyi kod yazdığıma güveniyorum. Çevremdeki H-1B sahiplerinin çoğu da gerçekten çok yetenekliydi.
  Önyargılı davranmak yerine beceriyi doğrudan değerlendirmek gerekir. Rakibinizi küçümserseniz sonunda zararı siz görürsünüz.
Şu anda doğru cevap, çalışanları elde tutmak ve işlerini iyi yapabilmeleri için onlara en iyi araçları sağlamaktır.
Geliştirme araçları her gün ilerliyor ve kısa vadede personel azaltımı yapılabilir, ama bunun etkisi hemen ortaya çıkmayacaktır.
Bu, gelecekteki büyüme ve organizasyonun sürdürülebilirliği pahasına bugünü kurtarmaya çalışmak demek. Kendinizi kandırmanız küçülmeyi daha iyi yapmanızı sağlamaz.
- Aslında strateji işe yarıyor gibi görünüyor. Junior principal engineer'ların dörtte birini işten çıkardılar ama hisse yükseldi, ardından büyük bir kesinti yaşandığında da hisse yine yükseldi. Şimdilik stratejileri çalışıyor gibi duruyor.
- Artık bir zamanların “yeni nesil” big tech şirketleri bile IBM gibi yaşlı büyük şirketler dönemine giriyor.
- Yüksek çalışan devir oranının kötü olduğunu bilmemekten ziyade, alanı en baştan tasarlarken tüm çalışan kitlesini ortalama seviyeye düzlemek ve birbirinin yerine geçebilen insan kaynaklarına dönüştürmek istiyorlar gibi.
  Artık sadece çok yetenekli olmak bile “kovboy kültürü” diye küçümsenir hale geldi.
Asıl kesinti giderme sürecinin ABD Batı Yakası'nın iş başlangıç saatine denk gelmesi oldukça şüpheliydi.
Ondan önceki güncellemeler “izleniyor, hafifletme çalışmaları sürüyor” diyordu ve somut bilgi vermiyordu.
- Bildiğim kadarıyla toparlanma Seattle saatine göre sabah 4 civarı gibiydi. Mesai genelde 9'da başlar ama belki New York saatine göre sabah 6 civarında başlamış olabilirler.
- Bu sabah Reddit'te okuduğum bir yazı şimdi daha anlamlı geliyor.
AWS hâlâ en çok tercih ettiğim bulut ve onu gerçekten verimli kullanıyorum.
Ben de bir noktada AWS'de çalışmayı düşünmüştüm ama bazı endişelerin giderildiğinden emin olmadan insan tereddüt ediyor.

Sert şirket kültürü söylentileri ve yöneticinin çalışanı bu kültürden korumak zorunda olması (tüm Amazon'u ya da tüm beyaz yaka düzenini hemen düzeltemeseler bile en azından AWS içindeki ekipler düzeyinde aday güvenini artırmaları gerekir).
Deneyimli mühendisler için bile anlamsız kodlama eleme süreçleri ya da liderlik ilkeleri hakkında STAR cevaplı mülakatların zorunlu olması.
Potansiyel yönetici adayı, bu süreçte bile adayı koruyamıyorsa daha ciddi şirket kültürü sorunlarında da koruyamaz diye endişe ediyorum.
RTO'ya geçiş ve bunun üst düzey ilkelerle uyumlu olmayan bir şekilde yürütüldüğü iddiaları.
Ancak principal olunca nöbetten çıkıldığı söyleniyor, ama öyle olsa bile bunun ekip arkadaşlarına aşırı yük bindirmemesi ve farklı uyku düzenleri yüzünden gariplik oluşmaması için dikkat edilmesi gerekir.
Bugünlerde tüm FAANG için geçerli olabilecek bir fikir var: aslında yetenekli insanların gitmek istediği yerler oldukları algısını sürekli tazelemeleri gerekiyor.
Meta bunu daha yüksek ücretler ve open source·open hardware yayınlarıyla markaladı, Google ise teknik üstünlük ve sıcak şirket kültürünü öne çıkardı (yani yeni mezunları yetiştirme kültürü; şu anda daha biçimsel olsa da).
AWS'nin de zaten övünebileceği çok güçlü teknik yetenekleri var; bunları çekmek ve elde tutmak için yatırım yaparken sektöre bu imajı daha aktif biçimde göstermesi gerektiğini düşünüyorum.

Aynı şeyi startup'larda da gördüm.
Satın alma sonrasında kilit isimler hisseleri vest olunca ayrılıyor ya da büyük şirket yerlerine başkasını oturtmak için onları dışarı itiyor.
Teknolojiyi gerçekten bilenler gidiyor ve geriye ancak sürdürülemez, darmadağın bir codebase kalıyor; kimse nasıl düzelteceğini bilmiyor.
El Reg'in meselenin özünü tam yerinden vurmasını çok seviyorum.
- Yazıyı yazanın Corey Quinn olduğunu, AWS hakkında çok yazdığını ancak şimdi fark ettim.
- Yazarların espri ve kişiliklerini yazıya iyi yedirmelerini de seviyorum.
- Ne olursa olsun olayın özünü gerçekten yakalıyorlar.
“Bir sorun yaşandıktan sonra 75 dakika içinde nedeni belirli bir servis endpoint'ine kadar daralttı.”
Bu gerçekten o kadar uzun bir süre mi? Ben web geliştiricisi değilim ama 75 dakikada sorunun nerede olduğunu bulmuş olmak bana oldukça hızlı geliyor.
Eskiden firmware mühendisi olarak çalışırken bir şeyin nerede bozulduğunu bulmak bazen haftalar sürerdi.
- Sorunun görülme sıklığı %0,01 ise, hiçbir korelasyon yoksa ve yeniden deneyince kayboluyorsa gerçekten haftalar sürebilir.
  Ama bunlar genelde yüksek öncelikli olaylar olmaz; gerçekten acil vakalar tekrarlanabilir olur ve bir saat öncesine kadar çalışan şeyin birden patladığı durumlardır.
  Genelde iyi tasarlanmış, iş açısından kritik bir sistemde teşhis 75 dakikadan uzun sürmez. Tabii düzeltmesi daha uzun sürebilir.
  Gerçek hayatta bu kadar ideal sistemlerin çok yaygın olduğunu söylemek zor.
- Ortalama bir şirkette 75 dakika uzun sayılmayabilir. Ama konu dünyanın en büyük bulutunda internetin büyük bölümünün felç olmasıysa durum farklı.
- Resmî duyuruda hâlâ araştırıldığı yazmış olsalar da, içeride aslında kök nedeni daha erken tahmin etmiş olabilirler.
  Güncellemeleri aceleyle verirseniz kullanıcılar gereksiz yere yanlış anlayabilir, bu yüzden temkinli olmak doğru.
- Bence 75 dakika, herhangi bir ciddi sorunun teşhisi için neredeyse en üst seviye hızdır.
- Amazon'un sektörün en iyi altyapılarından birine sahip olduğu söylenir.
  Diğer şirketlerin hepsi Amazon altyapısını kullandığına göre, SRE düzeyindeki insanların böyle olayları gerçekten çok hızlı yakalamasını bekliyorum.
Bir organizasyonda kaybolup giden deneyim bilgisi ve birikim, Excel tablosuna yazılması bile zor olan gerçek değerdir.
- Ama o zaman bu birikimin kaç satır koda denk geldiğini ya da en azından kaç token ettiğini hesaplamamız lazım ki işten çıkarma kararlarında referans alabilelim!
Organizasyon, gerçekten yetenekli ve uzun süre kalmış uzmanlardan çok kendi markasını büyüten insanları ya da gösteriş amaçlı işe alımları öne çıkarmaya başladığında, sistemi gerçekten anlayan teknik çekirdek ekip geri itilmeye başlar.
Bu dengesizlik AWS gibi ölçekte büyüdüğünde, LinkedIn ünlüleri ve kontrol listesi tarzı DEI işe alımları gerçek üreticileri bastırır; uygulama kalitesi, sorumluluk duygusu ve teknik tamamlanmışlık zamanla zayıflar.
Şu anda Andy Jassy liderliğinin işe yaramadığı yavaş yavaş netleşiyor ve yakında Wall Street açıkça değişim talep edebilir.
- Ortada tek bir kanıt bile yokken kesintiyi DEI yüzündenmiş gibi suçlamaları ilginç buluyorum.
The Register'a saygın bir yayın kuruluşu denmesi komik; sanki onlar da kendileri için böyle denmesini pek istemezdi...

botplaysdice 2025-10-23

Tersinden bakınca yukarıda, 'Bu kadar çok kişi çıkarıldı ama demek ki işler bu kadar toparlanabiliyormuş...' diye düşünüyor da olabilirsiniz

tujuc 2025-10-21

Kore'de mühendisler belli bir seviyeye gelince hep yönetici oluyor ve orada kopuyorlar...
ABD'de ise verimlilik bahanesiyle kıdemlilerin hepsini işten çıkarıyorlar, sorun da bu...
Gerçekten hiç kolay değil...