1 puan yazan GN⁺ 2025-09-19 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Ağustostan eylül başına kadar görülen Claude yanıt kalitesi düşüşü, üç ayrı altyapı hatası nedeniyle yaşandı
  • Sorunların başlıca nedenleri sırasıyla bağlam penceresi yönlendirme hatası, çıktı bozulması ve XLA:TPU approximate top-k derlenmeme hatasıydı
  • Her bir hata, farklı donanım ve dağıtım yollarında birbirinin üzerine binerek ortaya çıktığı için teşhis daha da zorlaştı
  • Tespit ve çözümün gecikmesinde doğrulama sürecindeki açıklar ve gizlilik politikaları kaynaklı erişim kısıtları etkili oldu
  • Anthropic, değerlendirme ve izlemeyi güçlendirerek ve daha hızlı hata ayıklama araçları geliştirerek benzer olayları önlemeye çalışıyor

Genel bakış ve arka plan

  • Ağustostan eylül başına kadar Claude yanıt kalitesinde aralıklı düşüşler bildirildi
  • Başlangıçta bu durum kullanıcı geri bildirimlerindeki olağan dalgalanmalar olarak değerlendirildi, ancak bildirimler sürekli artınca inceleme başlatıldı
  • Anthropic, sorunun talep ya da sunucu yükünden değil, yalnızca altyapı hatalarından kaynaklandığını açıkça belirtti
  • Claude, milyonlarca kullanıcıya API’ler, Amazon Bedrock ve Google Vertex AI gibi çeşitli platformlar üzerinden sunuluyor; ayrıca AWS Trainium, NVIDIA GPU ve Google TPU gibi farklı donanımlarda eşdeğer sonuçları garanti etmek için sıkı doğrulama standartları uygulanıyor
  • Bu postmortem, hataların nedenlerini, teşhis ve çözümde yaşanan gecikmelerin sebeplerini ve tekrarını önlemeye yönelik tedbirleri açıklıyor

Claude’un büyük ölçekte hizmet sunma yöntemi

  • Claude hizmeti, farklı donanımlar (Trainium, GPU, TPU) üzerinden küresel dağıtımı sürdürüyor
  • Her platformda aynı kaliteyi garanti etmek için uygulama eşdeğerliği standartları katı tutuluyor
  • Altyapı değişikliklerinde, tüm platformlar ve yapılandırmalar için ayrıntılı bir doğrulama süreci gerekiyor

Başlıca sorunların zaman çizelgesi

  • 5 Ağustos: İlk hata, Sonnet 4 isteklerinin yaklaşık %0,8’ini etkiledi
  • 25 ve 26 Ağustos: İkinci ve üçüncü hata ayrı ayrı devreye alındı
  • 29 Ağustos: Yük dengeleme değişikliği nedeniyle sorunlu trafik keskin biçimde arttı ve daha fazla kullanıcı etkilendi
  • Her bir hatanın belirtileri üst üste bindiği için teşhis son derece zordu

Birbirinin üzerine binen üç hata ve çözüm süreci

1. Bağlam penceresi yönlendirme hatası

  • 5 Ağustos’ta bazı Sonnet 4 istekleri, 1M token bağlam penceresi için ayrılmış sunuculara yanlış yönlendirildi
  • Yük dengeleme değişikliğinden sonra en fazla Sonnet 4 isteklerinin %16’sı etkilendi; Amazon Bedrock ve Google Vertex AI’da da sınırlı etki görüldü
  • Yönlendirme yöntemi "sticky" olduğu için bir kez yanlış sunucuya bağlanan istekler sonrasında da aynı sunucuya gitmeye devam etti
  • Çözüm: Yönlendirme mantığı iyileştirildi; 4 Eylül’de Anthropic’in kendi platformuna yama uygulandı, Google Cloud’a 16 Eylül’e kadar dağıtıldı, Bedrock için ise kademeli dağıtım sürüyor

2. Çıktı bozulması (bug)

  • 25 Ağustos’ta Claude API’nin TPU sunucularına hatalı bir yapılandırma uygulandı ve token üretimi sırasında hatalar oluştu
  • İngilizce sorulara Tayca ya da Çince gibi alakasız karakterlerin karışması ve koda açık sözdizimi hatalarının eklenmesi gibi sorunlar görüldü
  • Yalnızca Opus 4.1, Opus 4 ve Sonnet 4 etkilendi; üçüncü taraf platformlar etkilenmedi
  • Çözüm: 2 Eylül’de ilgili değişiklik geri alındı ve anormal karakter çıktısını tespit eden testler dağıtım sürecine eklendi

3. Approximate top-k için XLA:TPU derlenmeme hatası

  • 25 Ağustos’ta token seçimi yöntemi iyileştirilirken XLA:TPU derleyicisindeki potansiyel bir hata açığa çıktı
  • Claude Haiku 3.5, bazı Sonnet 4 örnekleri ve Opus 3 etkilendi
  • Üçüncü taraf platformlar etkilenmedi
  • Çözüm: Haiku 3.5 için 4 Eylül’de, Opus 3 için 12 Eylül’de geri alma yapıldı; Sonnet 4’te doğrudan yeniden üretilemese de önleyici tedbir olarak geri alındı
  • Buna paralel olarak XLA:TPU ekibiyle birlikte derleyici hatası düzeltiliyor ve exact top-k yöntemine geçiliyor

XLA derleyici hatasının ayrıntılı analizi

  • Claude, token üretim sürecinde her aday için olasılık hesaplama ve örnekleme yapıyor
  • TPU’lar dağıtık ortamda çalıştığı için token olasılık hesaplarının senkronize edilmesi gerekiyor ve bu da karmaşıklık yaratıyor
  • Aralık 2024’te, bf16-32 bit karma hassasiyet kullanımından kaynaklanan hata nedeniyle en yüksek olasılıklı token’ın atlanabildiği bir sorun bulundu ve buna geçici bir düzeltme dağıtıldı
  • 26 Ağustos’ta, temel nedeni çözmek için örnekleme kodu yeniden düzenlenirken approximate top-k işleminde belirli durumlarda tamamen yanlış sonuç üreten daha derin bir hata ortaya çıktı
  • Önceki geçici düzeltme bu sorunu maskeliyordu
  • Ayrıca approximate top-k işlemindeki hata, üretim ortamına ve batch boyutuna bağlı olarak düzensiz biçimde farklı belirtiler gösteriyordu
  • Approximate top-k yerine, son dönemde performans maliyeti belirgin biçimde azalan exact top-k yöntemine geçildi ve ana işlemler fp32 standardizasyonu ile iyileştirildi

Tespitte yaşanan gecikmenin nedenleri

  • Düzenli otomatik değerlendirmeler ve önceden tanımlı grup dağıtımları gibi süreçler kullanılıyordu
  • Bu olaylar, değerlendirme sürecindeki açıkları ortaya çıkardı. Örneğin, sorunlu durumları yeterince iyi yakalayamayan değerlendirme maddeleri ve iç gizlilik politikaları nedeniyle (mühendislerin belirli kullanıcı isteklerine erişememesi) hızlı analiz yapmak zorlaştı
  • Belirtiler platforma ve sürüme göre farklılaştığından tek bir kök neden belirlemek güç oldu
  • Çevrim içi raporlar hızla artsa da bunun standart bir yük dengeleme değişikliğiyle ilişkisi hemen fark edilemedi

Gelecekteki iyileştirmeler ve önlemler

  • Yüksek duyarlılıklı değerlendirme maddeleri geliştirilecek; bozulmuş durumlarla sağlıklı uygulamaları daha net ayırt eden otomatik değerlendirmeler güçlendirilecek
  • Değerlendirme ve izleme sistemleri gerçek üretim ortamının tamamına genişletilecek; örneğin bağlam penceresi yönlendirme hatası gibi üretim ortamı odaklı değerlendirmeler yapılacak
  • Daha hızlı ve daha gelişmiş hata ayıklama araçları kurulacak; topluluk geri bildirimlerini gizliliği koruyarak hızlı analiz etmeye yönelik altyapı ve özel araçlar geliştirilecek
  • Yalnızca iç değerlendirmeler değil, kullanıcı geri bildiriminin sürekli toplanmasının güvenilirliği de vurgulanıyor: öngörülmesi zor hatalar ve bug’lar için gerçek kullanıcı bildirimleri önemli bir sinyal görevi görüyor
  • /bug komutunun ya da 'thumbs down' özelliğinin kullanılması ve model kalite değerlendirme yöntemleriyle ilgili bildirimlerin e-posta yoluyla iletilmesi aktif biçimde teşvik ediliyor

Ek açıklama

  • XLA:TPU, XLA yüksek seviyeli optimizasyon dili kodunu TPU komutlarına dönüştüren bir derleyicidir
  • Model boyutu büyük olduğu için tek bir çip yerine birden fazla çipe bölünerek yerleştirilir; sorting işlemleri gibi operasyonların da vektörleştirilmiş biçimde uygulanması gerekir
  • Approximate top-k işlemi performansı artırmak için kullanılır, ancak en yüksek olasılıklı token’ı atlamak gibi ciddi sorunlar barındırabilir
  • Şu anda exact top-k yöntemi kullanılmaktadır; bu nedenle top-p eşiğine yakın token’ların dahil edilme biçiminde küçük değişiklikler olabilir. Bazı durumlarda kullanıcıların top-p değerini ayarlaması gerekebilir

Henüz yorum yok.

Henüz yorum yok.