- Ağustostan eylül başına kadar görülen Claude yanıt kalitesi düşüşü, üç ayrı altyapı hatası nedeniyle yaşandı
- Sorunların başlıca nedenleri sırasıyla bağlam penceresi yönlendirme hatası, çıktı bozulması ve XLA:TPU approximate top-k derlenmeme hatasıydı
- Her bir hata, farklı donanım ve dağıtım yollarında birbirinin üzerine binerek ortaya çıktığı için teşhis daha da zorlaştı
- Tespit ve çözümün gecikmesinde doğrulama sürecindeki açıklar ve gizlilik politikaları kaynaklı erişim kısıtları etkili oldu
- Anthropic, değerlendirme ve izlemeyi güçlendirerek ve daha hızlı hata ayıklama araçları geliştirerek benzer olayları önlemeye çalışıyor
Genel bakış ve arka plan
- Ağustostan eylül başına kadar Claude yanıt kalitesinde aralıklı düşüşler bildirildi
- Başlangıçta bu durum kullanıcı geri bildirimlerindeki olağan dalgalanmalar olarak değerlendirildi, ancak bildirimler sürekli artınca inceleme başlatıldı
- Anthropic, sorunun talep ya da sunucu yükünden değil, yalnızca altyapı hatalarından kaynaklandığını açıkça belirtti
- Claude, milyonlarca kullanıcıya API’ler, Amazon Bedrock ve Google Vertex AI gibi çeşitli platformlar üzerinden sunuluyor; ayrıca AWS Trainium, NVIDIA GPU ve Google TPU gibi farklı donanımlarda eşdeğer sonuçları garanti etmek için sıkı doğrulama standartları uygulanıyor
- Bu postmortem, hataların nedenlerini, teşhis ve çözümde yaşanan gecikmelerin sebeplerini ve tekrarını önlemeye yönelik tedbirleri açıklıyor
Claude’un büyük ölçekte hizmet sunma yöntemi
- Claude hizmeti, farklı donanımlar (Trainium, GPU, TPU) üzerinden küresel dağıtımı sürdürüyor
- Her platformda aynı kaliteyi garanti etmek için uygulama eşdeğerliği standartları katı tutuluyor
- Altyapı değişikliklerinde, tüm platformlar ve yapılandırmalar için ayrıntılı bir doğrulama süreci gerekiyor
Başlıca sorunların zaman çizelgesi
- 5 Ağustos: İlk hata, Sonnet 4 isteklerinin yaklaşık %0,8’ini etkiledi
- 25 ve 26 Ağustos: İkinci ve üçüncü hata ayrı ayrı devreye alındı
- 29 Ağustos: Yük dengeleme değişikliği nedeniyle sorunlu trafik keskin biçimde arttı ve daha fazla kullanıcı etkilendi
- Her bir hatanın belirtileri üst üste bindiği için teşhis son derece zordu
Birbirinin üzerine binen üç hata ve çözüm süreci
1. Bağlam penceresi yönlendirme hatası
- 5 Ağustos’ta bazı Sonnet 4 istekleri, 1M token bağlam penceresi için ayrılmış sunuculara yanlış yönlendirildi
- Yük dengeleme değişikliğinden sonra en fazla Sonnet 4 isteklerinin %16’sı etkilendi; Amazon Bedrock ve Google Vertex AI’da da sınırlı etki görüldü
- Yönlendirme yöntemi "sticky" olduğu için bir kez yanlış sunucuya bağlanan istekler sonrasında da aynı sunucuya gitmeye devam etti
- Çözüm: Yönlendirme mantığı iyileştirildi; 4 Eylül’de Anthropic’in kendi platformuna yama uygulandı, Google Cloud’a 16 Eylül’e kadar dağıtıldı, Bedrock için ise kademeli dağıtım sürüyor
2. Çıktı bozulması (bug)
- 25 Ağustos’ta Claude API’nin TPU sunucularına hatalı bir yapılandırma uygulandı ve token üretimi sırasında hatalar oluştu
- İngilizce sorulara Tayca ya da Çince gibi alakasız karakterlerin karışması ve koda açık sözdizimi hatalarının eklenmesi gibi sorunlar görüldü
- Yalnızca Opus 4.1, Opus 4 ve Sonnet 4 etkilendi; üçüncü taraf platformlar etkilenmedi
- Çözüm: 2 Eylül’de ilgili değişiklik geri alındı ve anormal karakter çıktısını tespit eden testler dağıtım sürecine eklendi
3. Approximate top-k için XLA:TPU derlenmeme hatası
- 25 Ağustos’ta token seçimi yöntemi iyileştirilirken XLA:TPU derleyicisindeki potansiyel bir hata açığa çıktı
- Claude Haiku 3.5, bazı Sonnet 4 örnekleri ve Opus 3 etkilendi
- Üçüncü taraf platformlar etkilenmedi
- Çözüm: Haiku 3.5 için 4 Eylül’de, Opus 3 için 12 Eylül’de geri alma yapıldı; Sonnet 4’te doğrudan yeniden üretilemese de önleyici tedbir olarak geri alındı
- Buna paralel olarak XLA:TPU ekibiyle birlikte derleyici hatası düzeltiliyor ve exact top-k yöntemine geçiliyor
XLA derleyici hatasının ayrıntılı analizi
- Claude, token üretim sürecinde her aday için olasılık hesaplama ve örnekleme yapıyor
- TPU’lar dağıtık ortamda çalıştığı için token olasılık hesaplarının senkronize edilmesi gerekiyor ve bu da karmaşıklık yaratıyor
- Aralık 2024’te, bf16-32 bit karma hassasiyet kullanımından kaynaklanan hata nedeniyle en yüksek olasılıklı token’ın atlanabildiği bir sorun bulundu ve buna geçici bir düzeltme dağıtıldı
- 26 Ağustos’ta, temel nedeni çözmek için örnekleme kodu yeniden düzenlenirken approximate top-k işleminde belirli durumlarda tamamen yanlış sonuç üreten daha derin bir hata ortaya çıktı
- Önceki geçici düzeltme bu sorunu maskeliyordu
- Ayrıca approximate top-k işlemindeki hata, üretim ortamına ve batch boyutuna bağlı olarak düzensiz biçimde farklı belirtiler gösteriyordu
- Approximate top-k yerine, son dönemde performans maliyeti belirgin biçimde azalan exact top-k yöntemine geçildi ve ana işlemler fp32 standardizasyonu ile iyileştirildi
Tespitte yaşanan gecikmenin nedenleri
- Düzenli otomatik değerlendirmeler ve önceden tanımlı grup dağıtımları gibi süreçler kullanılıyordu
- Bu olaylar, değerlendirme sürecindeki açıkları ortaya çıkardı. Örneğin, sorunlu durumları yeterince iyi yakalayamayan değerlendirme maddeleri ve iç gizlilik politikaları nedeniyle (mühendislerin belirli kullanıcı isteklerine erişememesi) hızlı analiz yapmak zorlaştı
- Belirtiler platforma ve sürüme göre farklılaştığından tek bir kök neden belirlemek güç oldu
- Çevrim içi raporlar hızla artsa da bunun standart bir yük dengeleme değişikliğiyle ilişkisi hemen fark edilemedi
Gelecekteki iyileştirmeler ve önlemler
- Yüksek duyarlılıklı değerlendirme maddeleri geliştirilecek; bozulmuş durumlarla sağlıklı uygulamaları daha net ayırt eden otomatik değerlendirmeler güçlendirilecek
- Değerlendirme ve izleme sistemleri gerçek üretim ortamının tamamına genişletilecek; örneğin bağlam penceresi yönlendirme hatası gibi üretim ortamı odaklı değerlendirmeler yapılacak
- Daha hızlı ve daha gelişmiş hata ayıklama araçları kurulacak; topluluk geri bildirimlerini gizliliği koruyarak hızlı analiz etmeye yönelik altyapı ve özel araçlar geliştirilecek
- Yalnızca iç değerlendirmeler değil, kullanıcı geri bildiriminin sürekli toplanmasının güvenilirliği de vurgulanıyor: öngörülmesi zor hatalar ve bug’lar için gerçek kullanıcı bildirimleri önemli bir sinyal görevi görüyor
/bug komutunun ya da 'thumbs down' özelliğinin kullanılması ve model kalite değerlendirme yöntemleriyle ilgili bildirimlerin e-posta yoluyla iletilmesi aktif biçimde teşvik ediliyor
Ek açıklama
- XLA:TPU, XLA yüksek seviyeli optimizasyon dili kodunu TPU komutlarına dönüştüren bir derleyicidir
- Model boyutu büyük olduğu için tek bir çip yerine birden fazla çipe bölünerek yerleştirilir; sorting işlemleri gibi operasyonların da vektörleştirilmiş biçimde uygulanması gerekir
- Approximate top-k işlemi performansı artırmak için kullanılır, ancak en yüksek olasılıklı token’ı atlamak gibi ciddi sorunlar barındırabilir
- Şu anda exact top-k yöntemi kullanılmaktadır; bu nedenle top-p eşiğine yakın token’ların dahil edilme biçiminde küçük değişiklikler olabilir. Bazı durumlarda kullanıcıların top-p değerini ayarlaması gerekebilir
Henüz yorum yok.