Azure güvenini yıkan kararlar – Eski bir Azure Core mühendisinın kaydı
(isolveproblems.substack.com)- Microsoft Azure Core içindeki gerçekçi olmayan karar alma süreçlerinin birikerek teknik karmaşa ve güven çöküşüne yol açtığını eski bir mühendis ayrıntılı biçimde anlatıyor
- Donanım kısıtlarını göz ardı eden Windows özelliklerini taşıma planı ve 173 yönetim ajanının kontrolden çıkmış biçimde çoğalması başlıca sorunlar olarak gösteriliyor
- Bu karmaşık yapının OpenAI, Anthropic ve kamu bulutu gibi kritik iş yüklerini taşıması, tek bir hatanın küresel çapta bir kesintiye yayılma riski doğurduğu anlamına geliyor
- Yönetimin yanıtsız kalmasıyla birlikte OpenAI ile ilişkinin bozulması, ABD hükümetinin güvenini kaybetme ve özellik yayınlarında gecikme gibi gelişmeler yaşandığı belirtiliyor
- Sonuçta bunun 1 trilyon dolarlık piyasa değerinin buharlaşmasına uzandığı ve bulut altyapısı işletiminde teknik gerçekleri kavrama ile sadeliği korumanın önemi vurgulanıyor
Azure güven çöküşünün içeriden kaydı
- Eski bir mühendisin anıları, Microsoft Azure Core ekibi içindeki gerçekçi olmayan karar süreçlerini ve bunun yol açtığı teknik ve kurumsal karmaşayı ele alıyor
- Overlake R&D ekibine katıldığı ilk günden itibaren, donanım kısıtlarını yok sayan Windows özelliklerini Overlake kartına taşıma planlarının konuşulduğuna tanık olduğunu anlatıyor
- 173 yönetim ajanı bulunmasına rağmen, bunların işlevini ve neden gerekli olduğunu bilen neredeyse kimsenin olmaması, karmaşıklık ve opaklığın ne kadar ciddi olduğunu gösteriyor
- Bu yapının OpenAI, Anthropic ve kamu bulutu gibi kritik iş yüklerini taşıması, tek bir hatanın küresel bir kesintiye dönüşme riski yarattığı anlamına geliyor
- Bunun sonunda OpenAI güveninin kaybedilmesi, ABD Savunma Bakanlığı'nın açık güvensizliği ve 1 trilyon dolarlık piyasa değerinin silinmesiyle sonuçlandığı anlatılıyor
Azure Core'a katılım ve ilk durum
- 1 Mayıs 2023'te Azure Boost offloading kartı ve ağ hızlandırıcılarından sorumlu Overlake R&D ekibine kıdemli mühendis olarak katıldı
- Daha önce Windows ekibi ve Core OS ekibinde çekirdek iyileştirmeleri ve konteyner platformu geliştirme çalışmalarında yer aldı; Docker, AKS, App Services ve Windows Sandbox gibi temel teknolojilere katkı sundu
- Overlake kartının ilk tasarımında da (2020~2021) görev aldı ve host OS ile hızlandırıcı kart arasındaki iletişim protokolünü önermişti
- Azure platformunu 10 yıldan uzun süredir doğrudan işleten ve geliştiren bir uzman olarak geri döndü
İlk toplantıda görülen gerçek dışı plan
- İşe başladığı ilk gün, ekibin aylık planlama toplantısında Windows bileşenlerini Overlake kartına taşıma planını gördü
- Overlake kartının RAM kapasitesi ve güç bütçesi son derece sınırlı olmasına rağmen ekip, Windows işlevlerini taşımayı ciddi biçimde tartışıyordu
- Bu, donanım özellikleri açısından imkânsız bir plandı ve hatta “birkaç junior geliştiriciye verelim” gibi ifadeler de kullanıldı
- Kurum, VM yönetim ajanlarını korumak için Windows'u Linux'a taşıma yönünü ciddi biçimde değerlendiriyordu
- Yazar bunu “gerçeklikten kopuk bir plan” olarak gördüğünü ve tüm organizasyonun imkânsız hedeflere doğru yürüyüşe geçtiğine karar verdiğini söylüyor
Teknik sınırlar ve yapısal sorunlar
- O dönemki yığın, 400W Xeon CPU üzerinde yalnızca birkaç düzine VM işleyebiliyordu; bu da hypervisor'un 1.024 VM sınırından çok uzaktı
- Aşırı kaynak tüketimi nedeniyle müşteri VM'lerinde jitter oluşması gibi performans sorunları da vardı
- Bu verimsiz yığını küçük bir ARM SoC üzerine taşıyıp ölçekleme planı teknik olarak mümkün değildi
- Yazar, “yeni teknoloji öğrenmekten daha acil olan şeyin, tüm organizasyonu yeniden gerçekliğe döndürmek olduğunu” söylüyor
Azure Linux ve Overlake ile ilgili iç görüşmeler
- Linux System Group yöneticisiyle yaptığı 90 dakikalık görüşmede, Overlake kartı için 173 ajanın taşıma adayı olarak belirlendiğini öğrendi
- Araştırma sonucunda, Microsoft içinde kimsenin bu 173 ajanın rolünü, etkileşimlerini ve neden var olduklarını net biçimde açıklayamadığı ortaya çıktı
- Azure'un çekirdeği VM, ağ ve depolamadan oluşurken, diğer hizmetler bunun üstüne kurulmuş olmasına rağmen gereksiz karmaşıklık birikmişti
- Bu kontrol edilemeyen bileşenler kümesi, OpenAI, Anthropic ve kamu bulutu gibi büyük iş yüklerini yönetiyordu
Güven kaybı ve sonrasındaki gelişmeler
- Bu karmaşık yapı, ulusal güvenlik ve iş sürekliliği açısından ciddi riskler doğurabilecek durumdaydı
- Sonrasında CEO'ya, yönetim kuruluna ve Cloud+AI bölümünün EVP'sine gönderilen mektupların tamamı yanıtsız kaldı
- Bunun sonucu olarak OpenAI ile ilişkinin bozulması, ABD hükümetinin güveninin çökmesi (Savunma Bakanı'nın açık açıklaması), mühendislik israfı ve Rust'a geçiş talimatı ile özellik yayınlarında gecikmeler yaşandığı belirtiliyor
- Yazar bunu “1 trilyon dolarlık piyasa değerinin buharlaştığı olay” diye tanımlıyor ve Azure kullanan şirketleri üretim ortamında bu yapıya bağımlı olmanın riskleri konusunda uyarıyor
Sonuç
- Azure içindeki teknik karmaşıklık, zayıf yönetim ve gerçekçi olmayan kararların birikerek güven kaybına yol açtığı süreç ortaya konuyor
- Kritik altyapıdan sorumlu bir organizasyonun gerçeklik duygusunu yitirip yapısal bir başarısızlığa doğru yürümeyi sürdürmesinin bir örneği olarak sunuluyor
- Bulut altyapısında istikrar ve sadeliğin, ayrıca kurum içinde teknik muhakemeyi korumanın öneminin altı çiziliyor
1 yorum
Hacker News yorumları
Her gün Azure kullanan biri olarak, bu ifşalar doğruysa gerçekten pek çok şeyi açıklıyor gibi geliyor
Arayüz özensiz, belgeler sanki yapay zeka yazmış gibi hatalı, hizmet türü de o kadar fazla ki hangisini kullanmak gerektiğine dair bile fikir oluşmuyor
Danışman desteği olmadan yapılandırmak zor ve yapılandırdıktan sonra da gerçekten düzgün çalıştığından emin olunamıyor
Açıkçası bunun hâlâ ayakta olmasına şaşırıyorum
O zamandan beri belgelere güvenmiyorum
GCP'de stabil çalışan hizmet öngörülemez hâle geldi
Yük altındayken Azure OpenAI'ın başka müşterilerin prompt yanıtlarını sızdırdığını gördüm
İlgili tweet de var
Ama kimsenin umursamadığı bir hava var
Tam bir Vahşi Batı durumu gibi
Bu yazının iddiaları çok somut olduğu için şaşırtıcı
İçeriden bilgi sızdıran biri mi, yoksa sadece memnuniyetsiz eski bir çalışan mı diye merak ediyorum
CEO'ya ve yönetim kuruluna doğrudan rapor verdiği kısmı özellikle etkileyici
ABD şirket kültüründe böyle bir sürecin “alışılagelmiş” olması bana yabancı geliyor
Azure gerçekten bu kadar kararsız mı, gerçek kullanıcı deneyimini merak ediyorum
Azure sorunu fark etmiyor, sebebini de bilmiyor, hatta umursamıyor gibi bile görünüyor
Bütün ekip Azure'dan nefret ediyor
OpenAI modellerini AWS Bedrock üzerinden kullanabilmek ve böylece Azure'dan kaçınabilmek sevindiriciydi
Güvenilirlik hâlâ ciddi bir sorun
“Hızlı çıkaralım, sonra düzeltiriz” stratejisi sonunda böyle sonuçlar doğuruyor
O zamandan beri güvenmiyorum
Yazı biraz duygusal olarak abartılı olduğu için asıl niyet bulanıklaşmış gibi
Azure içindeki unvan yapısı ya da Sev2 seviyesindeki sorunlar o kadar da sıra dışı değil
Azure'nun sorunları var ama ölçek büyük olduğu için pürüzler de doğal
Gerçek olgunluk bence sistemin içinde kalarak iyileştirmeye çalışmakta
Azure berbat olabilir ama yazarın yaklaşımı da sorunlu olmuş olabilir
Azure hakkındaki izlenimim tamamen olumsuz
Yazarın yaklaşımı tersine güveni azaltıyor
Yeni çalışanların günde kaç kez “wtf/day” dediği kurum sağlığının bir göstergesi gibi
Azure dışarıdan bakınca da kalite olarak dibi görüyor
AWS'yi yakalamak için aceleyle özellik fırlattıkça devasa bir teknik borç bataklığına saplanıyor
IPv6, azcopy, VM yükseltmesi gibi temel özellikler bile hâlâ kararsız
Eski bir iş arkadaşım Azure'u her gün kullanıyor ve onların şikâyet patlamalarını her duyduğumda bu yazının içeriği daha anlamlı geliyor
12 yıl önce bulut uzmanlaşmasını seçerken Azure'u kısa süre denemiş ve onu yavaş, bozuk bir platform olarak görmüştüm; bu yazı o yargımı doğruluyor
Yazının sonlarına doğru Microsoft'un 2025'te 15.000 kişiyi işten çıkardığı kısmı dikkat çekiciydi
Yapay zeka patlamasının arkasındaki gerçeği gösteren bir örnek gibi
OpenAI sözleşmesi GPU kapasitesi sorunuydu ve işten çıkarmalar ayrı bir konu
Asıl mesele mühendis rotasyonu ve sorumluluk eksikliği
Her projeye yeni insanlar giriyor ve sahiplenme duygusu kayboluyor
Host ele geçirilirse tüm VM belleğine erişilebilmesi kısmı son derece tehlikeli geliyor
Satya Nadella'nın maaşının %22 artarak 96,5 milyon dolara çıktığını söyleyen CNBC alıntısıyla,
Artemis II astronotunun “İki Outlook da çalışmıyor” sözünü yan yana görmek ironikti
Yazıdaki içerik abartılı görünüyor ama ben de benzer sistemler işletmiş biri olarak istikrarı korumak için sürekli mücadele etmek zorunda kaldığım günleri hatırlıyorum
Başka şirketlerde de benzer sorunlar gördüm ama Azure ölçeğinde bu kadar ağır değildi
Bu yapı sonunda bir kendini yok etme döngüsüne girecek gibi geliyor
2018'de Azure'u denedim; yavaş ve pahalıydı, kalitesi de berbattı
GitHub forumlarında diğer kullanıcılarla birlikte en temel özelliklerin bile çalışmaması sorunlarını çözmeye uğraşıyordum
Bu yazı o zamanki sorularımı yanıtlıyor
Kişisel olarak Google Cloud'un en iyi tasarlanmış platform olduğunu düşündüm ama AWS'ye kıyasla insan desteğinin zayıf olması hayal kırıklığı yaratıyor
Temsilci üç ay içinde üç kez değişti ve kota talepleri ya da sistem sınırlarıyla ilgili sorular bazen görmezden gelindi