- Claude Code Opus 4.5'in SWE görevlerindeki performansını her gün ölçerek istatistiksel olarak anlamlı performans düşüşlerini tespit eden bir izleme sistemi
- SWE-Bench-Pro'nun seçilmiş bir alt kümesi kullanılarak her gün 50 test örneği değerlendiriliyor; sonuçlar CLI ortamında doğrudan çalıştırılan gerçek model performansını yansıtıyor
- Son 30 gündeki ortalama geçiş oranı %54; %58'lik başlangıç düzeyine kıyasla istatistiksel olarak anlamlı %4,1'lik bir düşüş tespit edildi
- Günlük ve haftalık sonuçlar, %95 güven aralığı ve anlamlılık eşikleri (±%14,0, ±%5,6) temel alınarak analiz ediliyor; böylece kısa vadeli dalgalanmalar ile uzun vadeli eğilimler ayrıştırılıyor
- Bağımsız bir üçüncü taraf kuruluş tarafından işletiliyor ve model veya çalıştırma ortamındaki değişikliklerden kaynaklanan performans düşüşlerini erken tespit etmeye yarayan bir araç
Genel Bakış
- Bu takip sisteminin amacı, Claude Code Opus 4.5'in SWE görevlerindeki performansında istatistiksel olarak anlamlı düşüşleri tespit etmek
- Her gün SWE-Bench-Pro'nun kirlenmeye dirençli bir alt kümesi kullanılarak değerlendirme yapılıyor
- Claude Code CLI üzerinde doğrudan çalıştırılıyor; ayrı bir özel harness olmadan gerçek kullanıcı ortamını yansıtıyor
- Bağımsız bir üçüncü taraf kuruluş olarak, frontier model sağlayıcılarıyla herhangi bir ortaklığı yok
- 2025 Eylül ayında Anthropic'in performans düşüşüyle ilgili postmortem yazısının ardından, gelecekteki benzer vakaları erken tespit etmek için bir kaynak olarak işletiliyor
Performans Özeti
- Başlangıç geçiş oranı: %58
- Son 30 gün geçiş oranı: %54 (655 değerlendirme bazında)
- Son 7 gün geçiş oranı: %53 (250 değerlendirme bazında)
- Son 1 gün geçiş oranı: %50 (50 değerlendirme bazında)
- 30 günlük performans düşüşü, p < 0.05 düzeyinde istatistiksel olarak anlamlı
- 30 günlük değişim: -%4,1
- Anlamlılık eşiği: ±%3,4
- 1 günlük (-%8,0) ve 7 günlük (-%4,8) değişimler istatistiksel olarak anlamlı değil
Günlük ve Haftalık Eğilimler
- Günlük eğilim (Daily Trend)
- Son 30 gündeki günlük geçiş oranlarını görselleştirir
- Başlangıç düzeyi %58, anlamlılık eşik aralığı ±%14,0
- %95 güven aralığı gösterilebilir; örneklem sayısı azaldıkça aralık genişler
- Haftalık eğilim (Weekly Trend)
- 7 günlük hareketli ortalama ile günlük oynaklığı yumuşatan bir eğilim sunar
- Başlangıç düzeyi %58, anlamlılık eşik aralığı ±%5,6
- Aynı şekilde %95 güven aralığı gösterilebilir
Değişim Genel Görünümü (Change Overview)
- 1 günlük değişim (düne göre): -%8,0, istatistiksel olarak anlamlı değil
- 50 değerlendirme bazında, ±%14,0 değişim gerekli (p < 0.05)
- 7 günlük değişim (geçen haftaya göre): -%4,8, istatistiksel olarak anlamlı değil
- 250 değerlendirme bazında, ±%5,6 değişim gerekli (p < 0.05)
- 30 günlük değişim (geçen aya göre): -%4,1, istatistiksel olarak anlamlı
- 655 değerlendirme bazında, ±%3,4 değişim gerekli (p < 0.05)
Metodoloji
- Her test Bernoulli rassal değişkeni olarak modelleniyor ve %95 güven aralığı hesaplanıyor
- Günlük, haftalık ve aylık geçiş oranları arasındaki istatistiksel farklar analiz edilerek anlamlı bir performans düşüşü olup olmadığı raporlanıyor
- Değerlendirme, her gün 50 test örneği ile yapılıyor; kısa vadeli oynaklık mevcut
- Haftalık ve aylık toplulaştırılmış sonuçlar, daha istikrarlı tahminler sunuyor
- Model değişikliği veya çalıştırma harness'ındaki değişiklik nedeniyle oluşan performans düşüşleri de tespit edilebiliyor
Uyarı Özelliği
- Performans düşüşü istatistiksel olarak tespit edilirse e-posta bildirimi gönderilir
- Kullanıcılar e-posta adreslerini kaydederek abone olabilir
- Abonelik onaylandıktan sonra bildirim alınabilir; hata oluşursa yeniden deneme yönlendirmesi yapılır
2 yorum
Claude Code aptallaşmış değil de… belki de kullanan kişi Claude'u daha iyi kullanmaya başladığı içindir…
Hacker News yorumları
Claude Code ekibinden Thariq burada
26 Ocak’ta ortaya çıkan harness sorunu düzeltildi. 28 Ocak’ta da hemen geri alma işlemi tamamlandı; bu yüzden
claude updatekomutuyla en güncel sürüme geçmeniz önerilirSWE-bench ortak yazarlarından biriyim
Mevcut testin yalnızca 50 görev üzerinde ve günde bir kez çalıştırıldığı anlaşılıyor. Doğruluğu artırmak için 300 görev üzerinde günde 5–10 kez test yapıp ortalamasını almak gerekir. Sunucu yükü gibi rastgele etkenler sonuçları ciddi biçimde etkileyebilir
Anthropic’in kullanıcılara daha kötü bir model sunduğuna neden inanmadığımı özetleyeyim
İstatistik metodolojisi tuhaf
Yaptıkları şey, önceki değerin güven aralığını alıp yeni değerin bunun dışında olup olmadığına bakmak gibi görünüyor; oysa bu, farkın istatistiksel anlamlılığını test etmenin doğru yolu değil. Her iki ölçümün de belirsizliği olduğundan, farkın kendisi için güven aralığı hesaplanmalı. Ayrıca aylık karşılaştırma yapılacaksa, 60–31 gün önceki verilerle 30 gün önce–dün arasındaki veriler karşılaştırılmalı; dolayısıyla grafik en az iki aylık veriyi göstermeli
Yaklaşık bir hafta önce Claude yaklaşık bir saatliğine çökmüştü. Geri geldikten hemen sonra, herhalde kullanıcı sayısı azaldığı için, hızı 3 kattan fazla artmıştı. O bir saat içinde normalde yarım günde yaptığım işi bitirdim. Kaynak kısıtı olmayan bir geleceğe kısa bir bakış gibiydi
Kullanıcı prompt’larında küfür sıklığını ölçerseniz, model performansı düşünce kullanıcı düşmanlığındaki artışı saptayabilirsiniz
Zaman içinde modeli kademeli olarak quantization’a tabi tutuyor olabilirler. Bu, ölçeklenebilirliği ve maliyet düşürmeyi kolaylaştırır; ayrıca yeni sürümlerin daha “iyi görünmesi” etkisini de yaratır
API modunda Claude belirli bir token sayısını geçince bir anda aptallaşıyor ve “23. satırda bir bug var” deyip tüm işlevi silmek gibi alakasız şeyler yapıyor. ChatGPT 3.5’in bile yapabildiği basit düzeltmeleri bile başaramıyor. Bunun neden olduğunu anlamıyorum
Son bir haftada Claude’un kod kalitesi gözle görülür biçimde kötüleşti. Mesela Enum’da
frozenkullanmayı öneriyor ya da zatenurlparsekullanan bir fonksiyonda tekrarurlparseöneriyor. Eskiden böyle temel hatalar yapmıyorduLLM sağlayıcılarında akıl yürütme tutarlılığının eksikliği en büyük şikayetim. ChatGPT’de de benzer şekilde, 45k token’dan fazla girdi verildiğinde zeka keskin biçimde düşüyor veya girdi kesiliyor. Hiç değilse “reddedildi” mesajı vermesi daha iyi; gizlice downgrade edilmesi güveni yok ediyor. Şeffaflık gerçekten çok önemli