Claude Code performans düşüşünü izlemek için günlük benchmark

(marginlab.ai)

9 puan yazan GN⁺ 2026-01-30 | 2 yorum | WhatsApp'ta paylaş

Claude Code Opus 4.5'in SWE görevlerindeki performansını her gün ölçerek istatistiksel olarak anlamlı performans düşüşlerini tespit eden bir izleme sistemi
SWE-Bench-Pro'nun seçilmiş bir alt kümesi kullanılarak her gün 50 test örneği değerlendiriliyor; sonuçlar CLI ortamında doğrudan çalıştırılan gerçek model performansını yansıtıyor
Son 30 gündeki ortalama geçiş oranı %54; %58'lik başlangıç düzeyine kıyasla istatistiksel olarak anlamlı %4,1'lik bir düşüş tespit edildi
Günlük ve haftalık sonuçlar, %95 güven aralığı ve anlamlılık eşikleri (±%14,0, ±%5,6) temel alınarak analiz ediliyor; böylece kısa vadeli dalgalanmalar ile uzun vadeli eğilimler ayrıştırılıyor
Bağımsız bir üçüncü taraf kuruluş tarafından işletiliyor ve model veya çalıştırma ortamındaki değişikliklerden kaynaklanan performans düşüşlerini erken tespit etmeye yarayan bir araç

Genel Bakış

Bu takip sisteminin amacı, Claude Code Opus 4.5'in SWE görevlerindeki performansında istatistiksel olarak anlamlı düşüşleri tespit etmek
- Her gün SWE-Bench-Pro'nun kirlenmeye dirençli bir alt kümesi kullanılarak değerlendirme yapılıyor
- Claude Code CLI üzerinde doğrudan çalıştırılıyor; ayrı bir özel harness olmadan gerçek kullanıcı ortamını yansıtıyor
Bağımsız bir üçüncü taraf kuruluş olarak, frontier model sağlayıcılarıyla herhangi bir ortaklığı yok
2025 Eylül ayında Anthropic'in performans düşüşüyle ilgili postmortem yazısının ardından, gelecekteki benzer vakaları erken tespit etmek için bir kaynak olarak işletiliyor

Performans Özeti

Başlangıç geçiş oranı: %58
Son 30 gün geçiş oranı: %54 (655 değerlendirme bazında)
Son 7 gün geçiş oranı: %53 (250 değerlendirme bazında)
Son 1 gün geçiş oranı: %50 (50 değerlendirme bazında)
30 günlük performans düşüşü, p < 0.05 düzeyinde istatistiksel olarak anlamlı
- 30 günlük değişim: -%4,1
- Anlamlılık eşiği: ±%3,4
1 günlük (-%8,0) ve 7 günlük (-%4,8) değişimler istatistiksel olarak anlamlı değil

Günlük ve Haftalık Eğilimler

Günlük eğilim (Daily Trend)
- Son 30 gündeki günlük geçiş oranlarını görselleştirir
- Başlangıç düzeyi %58, anlamlılık eşik aralığı ±%14,0
- %95 güven aralığı gösterilebilir; örneklem sayısı azaldıkça aralık genişler
Haftalık eğilim (Weekly Trend)
- 7 günlük hareketli ortalama ile günlük oynaklığı yumuşatan bir eğilim sunar
- Başlangıç düzeyi %58, anlamlılık eşik aralığı ±%5,6
- Aynı şekilde %95 güven aralığı gösterilebilir

Değişim Genel Görünümü (Change Overview)

1 günlük değişim (düne göre): -%8,0, istatistiksel olarak anlamlı değil
- 50 değerlendirme bazında, ±%14,0 değişim gerekli (p < 0.05)
7 günlük değişim (geçen haftaya göre): -%4,8, istatistiksel olarak anlamlı değil
- 250 değerlendirme bazında, ±%5,6 değişim gerekli (p < 0.05)
30 günlük değişim (geçen aya göre): -%4,1, istatistiksel olarak anlamlı
- 655 değerlendirme bazında, ±%3,4 değişim gerekli (p < 0.05)

Metodoloji

Her test Bernoulli rassal değişkeni olarak modelleniyor ve %95 güven aralığı hesaplanıyor
Günlük, haftalık ve aylık geçiş oranları arasındaki istatistiksel farklar analiz edilerek anlamlı bir performans düşüşü olup olmadığı raporlanıyor
Değerlendirme, her gün 50 test örneği ile yapılıyor; kısa vadeli oynaklık mevcut
Haftalık ve aylık toplulaştırılmış sonuçlar, daha istikrarlı tahminler sunuyor
Model değişikliği veya çalıştırma harness'ındaki değişiklik nedeniyle oluşan performans düşüşleri de tespit edilebiliyor

Uyarı Özelliği

Performans düşüşü istatistiksel olarak tespit edilirse e-posta bildirimi gönderilir
Kullanıcılar e-posta adreslerini kaydederek abone olabilir
Abonelik onaylandıktan sonra bildirim alınabilir; hata oluşursa yeniden deneme yönlendirmesi yapılır

2 yorum

iolothebard 2026-01-31

Claude Code aptallaşmış değil de… belki de kullanan kişi Claude'u daha iyi kullanmaya başladığı içindir…

GN⁺ 2026-01-30

Hacker News yorumları

Claude Code ekibinden Thariq burada
26 Ocak’ta ortaya çıkan harness sorunu düzeltildi. 28 Ocak’ta da hemen geri alma işlemi tamamlandı; bu yüzden claude update komutuyla en güncel sürüme geçmeniz önerilir
- Claude 2.1.x sürümü sık sık donuyor veya CPU’yu %100 kullanıyor; bu yüzden pratikte kullanılamaz halde. İlgili sorun GitHub #18532 içinde yer alıyor
- Claude’un token israf etmesiyle ilgili bir telafi olup olmadığını merak ediyorum
- “harness issue” tam olarak ne anlama geliyor ve ne tür bir etkisi oldu, daha fazla öğrenmek istiyorum
- Sorun 26 Ocak’tan önce de vardı. O zamandan beri Claude, “iyileştirme” diyerek planları keyfi biçimde değiştirmeye başladı
- Modelin kendisinden çok kalite kontrol sistemini merak ediyorum. Gerçek çıktı örneklerini düzenli olarak gözden geçiren veya benchmark’larla performans düşüşünü izleyen bir iç süreç var mı, emin değilim. Yapay zeka güvenliği açısından da bu tür doğrulamalar şart
SWE-bench ortak yazarlarından biriyim
Mevcut testin yalnızca 50 görev üzerinde ve günde bir kez çalıştırıldığı anlaşılıyor. Doğruluğu artırmak için 300 görev üzerinde günde 5–10 kez test yapıp ortalamasını almak gerekir. Sunucu yükü gibi rastgele etkenler sonuçları ciddi biçimde etkileyebilir
- Sunucu aşırı yükünden kaynaklanan performans düşüşü de ölçüm kapsamına girmeli değil mi? Tabii amaç yalnızca model distillation’ını ölçmek değilse
- Sorun muhtemelen modeli çalıştırma maliyeti. Anthropic biraz kredi desteği verse ya da bir bağış bağlantısı açılsa iyi olurdu
- Günün farklı saatlerinde performans farkı daha büyük olabilir
- SWE-bench çalıştırma maliyeti çok yüksek, bu yüzden yeterince döndürmek zor. mafia-arena.com da benzer bir sorun yaşıyor
- “Sunucu aşırı yüklü olduğu için ölçüm doğru değil” denmesi tuhaf. O zaman Claude’un düzgün çalıştığı bir mesai saati mi var?
Anthropic’in kullanıcılara daha kötü bir model sunduğuna neden inanmadığımı özetleyeyim
1. Doğruluktaki düşüş küçük ve dalgalı bir biçimde aşağı yukarı hareket ediyor
2. Sonnet 4.5 için bir karşılaştırma referansı yok; GPU yükü altında Opus, Sonnet seviyesine düşüyor olabilir
3. Büyük olasılıkla birden fazla checkpoint üzerinde A/B testi yapılıyor. Claude Code sürüm güncellemeleri ya da token sampling’in deterministik olmaması da neden olabilir
- Bilimsel açıklamayı anlıyorum ama her gün kullanınca gerçekten performansın düştüğü hissediliyor
- Bence de ana sebep A/B testi. Context window sınırı veya sistem prompt’undaki değişiklikler gibi şeyler şeffaf biçimde açıklansa iyi olur. İdeal olan, kullanıcının sürümü kendisinin seçip geri bildirim verebilmesi
- Grafiğin neden 8 Ocak’tan başladığını merak ediyorum. Belki de o tarih alışılmadık derecede yüksek bir gündü
- Yüke göre performans-maliyet ayarını otomatik değiştiren bir yapı olabilir. Başta yüksek performansla başlayıp sonra maliyeti azaltmak için modeli küçültmek veya MoE uzman sayısını azaltmak gibi ayarlara gidilmiş olabilir
- “Düşüş çok küçük” iddiası, istatistiksel anlamlılığı görmezden gelen öznel bir yargı sadece
İstatistik metodolojisi tuhaf
Yaptıkları şey, önceki değerin güven aralığını alıp yeni değerin bunun dışında olup olmadığına bakmak gibi görünüyor; oysa bu, farkın istatistiksel anlamlılığını test etmenin doğru yolu değil. Her iki ölçümün de belirsizliği olduğundan, farkın kendisi için güven aralığı hesaplanmalı. Ayrıca aylık karşılaştırma yapılacaksa, 60–31 gün önceki verilerle 30 gün önce–dün arasındaki veriler karşılaştırılmalı; dolayısıyla grafik en az iki aylık veriyi göstermeli
Yaklaşık bir hafta önce Claude yaklaşık bir saatliğine çökmüştü. Geri geldikten hemen sonra, herhalde kullanıcı sayısı azaldığı için, hızı 3 kattan fazla artmıştı. O bir saat içinde normalde yarım günde yaptığım işi bitirdim. Kaynak kısıtı olmayan bir geleceğe kısa bir bakış gibiydi
- ABD tatilleri sırasında da kullanım sınırları gevşeyince her şey çok daha akıcı çalışıyordu
- Ben de birkaç gün önce aynı şeyi yaşadım. O kadar hızlıydı ki “claude speed boost” diye arattım. Eski modem yükseltmelerindeki gibi anlık bir yıldırım hızı vardı
- Fazla hızlanınca insanın biraz hoşuna gitmiyor. Şu an modelin gerçekten uğraştığını hissedebilmek güzel
Kullanıcı prompt’larında küfür sıklığını ölçerseniz, model performansı düşünce kullanıcı düşmanlığındaki artışı saptayabilirsiniz
- Ama Claude kullanıcı prompt’larını bu kadar ‘basitçe’ taramanın bir yolu var mı?
- “How’s Claude Doing This Session?” gibi geri bildirim isteklerinden hemen sonra küfürlerin arttığı bir korelasyon var
- Ben zaten sık küfür ettiğim için veri bozulabilir
- Ben de öyleyim, içim rahatladı
- Bazen çok saçma yanıt verdiğinde insanın ağzından küfür çıkıyor. Bu da beklentinin yüksek olmasından kaynaklanıyor
Zaman içinde modeli kademeli olarak quantization’a tabi tutuyor olabilirler. Bu, ölçeklenebilirliği ve maliyet düşürmeyi kolaylaştırır; ayrıca yeni sürümlerin daha “iyi görünmesi” etkisini de yaratır
- Her gün 5–10 saat kullanıyorum ve son bir haftadır kesin biçimde daha aptallaşmış gibi geliyor. Onlar reddetse de, hissedilen bir değişim var
- Quantization’a gerek kalmadan da sohbet uzunluğunu azaltmak veya çıkarım süresini kısaltmak gibi yöntemlerle yük azaltılabilir
- Açık model GPT-OSS veya Kimi K2.x de 4bit katmanlarla eğitildi. Opus 4.5, token başına maliyet olarak 8 kat daha pahalı olduğundan muhtemelen daha büyük bir model; ama abonelik fiyat yapısı nedeniyle basit karşılaştırma zor
- Anthropic, altyapı maliyetleri yüzünden bu kadar kısıt altında olan bir şirket gibi görünmüyor. Rekabetin bu kadar yoğun olduğu bir ortamda kaliteyi bilerek düşürmek kötü bir strateji olur. Belki de kullanıcılar ‘balayı etkisi’ geçtikten sonra kusurları daha net fark etmeye başlamıştır
- Yine de böyle bir kademeli bozulma stratejisi tamamen mümkün görünüyor. Çünkü yeni modelin göreli iyileşmesini en üst düzeye çıkarabilir
API modunda Claude belirli bir token sayısını geçince bir anda aptallaşıyor ve “23. satırda bir bug var” deyip tüm işlevi silmek gibi alakasız şeyler yapıyor. ChatGPT 3.5’in bile yapabildiği basit düzeltmeleri bile başaramıyor. Bunun neden olduğunu anlamıyorum
- Muhtemelen kaynak kısıtları yüzünden. Bazı kullanıcılara çok iyi yanıtlar vermek yerine, daha fazla kullanıcıya idare eder yanıtlar vermeyi seçmiş olabilirler
- Ben de aynı şeyi yaşadım. Claude giderek tembelleşiyor gibi
Son bir haftada Claude’un kod kalitesi gözle görülür biçimde kötüleşti. Mesela Enum’da frozen kullanmayı öneriyor ya da zaten urlparse kullanan bir fonksiyonda tekrar urlparse öneriyor. Eskiden böyle temel hatalar yapmıyordu
LLM sağlayıcılarında akıl yürütme tutarlılığının eksikliği en büyük şikayetim. ChatGPT’de de benzer şekilde, 45k token’dan fazla girdi verildiğinde zeka keskin biçimde düşüyor veya girdi kesiliyor. Hiç değilse “reddedildi” mesajı vermesi daha iyi; gizlice downgrade edilmesi güveni yok ediyor. Şeffaflık gerçekten çok önemli
- Muhtemelen Maximum Effective Context Window olgusuyla ilgilidir