Claude Code, Şubat güncellemesinden sonra karmaşık mühendislik işlerinde neredeyse kullanılamaz hale gelecek kadar kalite kaybı yaşadı

(github.com/anthropics)

34 puan yazan GN⁺ 23 일 전 | 5 yorum | WhatsApp'ta paylaş

Claude Code’un Şubat güncellemesinden sonra talimatları yok sayma veya tersini yapma ya da işi tamamlamadan tamamladığını iddia etme gibi karmaşık mühendislik görevlerinde başarısızlık belirtileri çok sayıda raporlandı
Gerilemenin temel nedeni olarak, redact-thinking-2026-02-12 dağıtımından sonra Extended Thinking token’larının azaltıldığı ve düşünme derinliğinin referansa göre en fazla %73 düştüğü tahmin ediliyor
Sonrasında modelin davranış kalıbı "araştırıp sonra düzenleme (Read-First)" yaklaşımından "hemen düzenleme (Edit-First)" yaklaşımına kaydı; dosya başına okuma sayısı 6,6’dan 2,0’a düşerek %70 azaldı
Kullanıcı istemlerindeki olumsuz ifadelerin %68 artması ve kod commit sıklığının %58 azalması gibi göstergeler, kullanıcıların gerçek iş akışı ve duygu verilerinde de kalite düşüşünün sayısal olarak doğrulandığını gösteriyor
Anthropic’ten düşünme token kullanımı konusunda şeffaflık, yoğun kullanıcılar için bir "Max Thinking" katmanı ve API yanıtlarına thinking_tokens metriğinin eklenmesi talep ediliyor

Rapor özeti ve veri kaynakları

Analiz kapsamı: 4 projeden (iree-loom, iree-amdgpu, iree-remoting, bureau) toplanan 6.852 Claude Code oturumu JSONL dosyası
Analiz aralığı: 17.871 thinking block, 234.760 araç çağrısı, 18.000’den fazla kullanıcı istemi
Analiz dönemi: 30 Ocak 2026 ~ 1 Nisan 2026
Bu rapor, Claude Opus 4.6’nın kendi oturum günlüklerini doğrudan analiz etmesiyle hazırlandı

1. Thinking gizleme zaman çizelgesi ile kalite düşüşü arasındaki korelasyon

redact-thinking-2026-02-12 dağıtım takvimi ile kalite düşüşünün başlangıcı tam olarak çakışıyor

Dönem	Thinking görünür	Thinking gizli
30 Ocak ~ 4 Mart	%100	%0
5 Mart	%98,5	%1,5
7 Mart	%75,3	%24,7
8 Mart	%41,6	%58,4
10~11 Mart	<%1	>%99
12 Mart~	%0	%100

Kalite düşüşü topluluk tarafından bağımsız olarak 8 Mart’ta raporlandı; bu tarih, gizleme oranının %50’yi aştığı günle tam olarak örtüşüyor
Aşamalı dağıtım deseni (%1,5 → %25 → %58 → %100), kademeli rollout ile uyumlu

2. Thinking derinliğindeki önceden başlayan azalma

thinking block içindeki signature alanının uzunluğu, thinking içeriğinin uzunluğuyla 0,971 Pearson korelasyonu gösteriyor (7.146 örnek üzerinden)
Bu sayede gizleme sonrasında da thinking derinliği tahmin edilebiliyor

Dönem	Tahmini medyan thinking (karakter)	Referansa göre
30 Ocak ~ 8 Şubat (referans)	~2.200	—
Şubat sonu	~720	-%67
1~5 Mart	~560	-%75
12 Mart~ (tam gizleme)	~600	-%73

Düşünme derinliği, gizleme başlamadan önce yani Şubat sonunda zaten %67 düşmüş durumdaydı; sonrasında gizleme nedeniyle dışarıdan doğrulanamaz hale geldi

3. Davranış değişimini ölçen göstergeler

18.000’den fazla kullanıcı istemine dayanarak 8 Mart öncesi ve sonrası karşılaştırıldığında:

Gösterge	8 Mart öncesi	8 Mart sonrası	Değişim
Stop hook ihlali (tembellik tespiti)	0	173 vaka	0 → günde 10 vaka
Kullanıcı istemlerinde memnuniyetsizlik ifadesi	%5,8	%9,8	+%68
Sorumluluktan kaçmayı düzeltme gereği sayısı	6	13	+%117
Oturum başına istem sayısı	35,9	27,9	-%22
Çıkarım döngüsü görülen oturumlar (5+ kez)	0	7	0 → 7

stop-phrase-guard.sh betiğiyle "burada durmak uygun olabilir", "devam etmemi ister misiniz?", "bu mevcut bir issue" gibi ifadeler otomatik tespit edilip zorunlu devam yürütmesi uygulandı
Bu hook, 8 Mart’tan önce bir kez bile tetiklenmemişken sonrasındaki 17 günde 173 kez tetiklendi

4. Araç kullanım desenindeki değişim: araştırma öncelikli → düzenleme öncelikli

Read:Edit oranındaki değişim

Dönem	Read:Edit	Research:Mutation	Okuma %	Düzenleme %
İyi dönem (30/1 ~ 12/2)	6,6	8,7	%46,5	%7,1
Geçiş dönemi (13/2 ~ 7/3)	2,8	4,1	%37,7	%13,2
Gerileme dönemi (8/3 ~ 23/3)	2,0	2,8	%31,0	%15,4

Düzenleme başına okuma sayısı 6,6’dan 2,0’a düşerek %70 azaldı — iyi dönemde hedef dosya, ilgili dosyalar, tüm codebase grep sonuçları, header’lar ve testler okunup ardından hassas düzenleme yapılırken; gerileme döneminde anında düzenlemeye geçildi
Haftalık eğilimlerde araştırmadaki düşüş Şubat ortasında başladı; bu da thinking derinliğinin %67 düştüğü zamanla örtüşüyor

Tüm dosyayı ezerek yazma (Write) artışı

Dönem	Tüm dosya Write oranı
İyi dönem	%4,9
Gerileme dönemi	%10,0
Son dönem (24/3 ~ 1/4)	%11,1

Tüm dosya Write kullanımı iki kattan fazla arttı — hassas düzenleme yerine tüm dosyanın yeniden yazılmasına geçildi; bu hız kazandırsa da doğruluk ve bağlam farkındalığını düşürdü

5. Extended Thinking neden önemli

Etkilenen iş akışlarının özellikleri:
- 50’den fazla eşzamanlı ajan oturumuyla C, MLIR, GPU sürücüleri gibi sistem programlama işleri yürütülmesi
- 30 dakikadan uzun otonom çalışma ve 5.000 kelimeyi aşan CLAUDE.md proje kurallarının uygulanması
- İyi dönemde hafta sonu boyunca 191.000 satır kodun 2 PR ile merge edilmesi
Extended Thinking’in üstlendiği roller:
- Eylem öncesi çok adımlı plan kurma (hangi dosyaların hangi sırayla okunacağı gibi)
- CLAUDE.md içindeki projeye özgü kuralları hatırlayıp uygulama
- Çıktı vermeden önce kendi hatalarını doğrulama
- Oturumun sürdürülüp sürdürülmeyeceğine karar verme
- Yüzlerce araç çağrısı boyunca tutarlı akıl yürütmeyi koruma
Thinking yüzeyselleştiğinde, okumadan düzenleme, tamamlamadan durma, başarısızlığın sorumluluğunu üstlenmeme ve doğru çözüm yerine en kolay düzeltmeyi seçme belirtileri birebir yeniden ortaya çıkıyor

6. Anthropic’ten talep edilenler

thinking tahsisi şeffaflığı: redact-thinking header’ı nedeniyle dışarıdan görülemeyen düşünme token azaltımlarının kullanıcılara açıklanması gerekiyor
"Max Thinking" katmanı: karmaşık mühendislik iş akışları kullanan kullanıcılar, yanıt başına 200 değil 20.000 thinking token’ına ihtiyaç duyuyor; mevcut abonelik modeli bunu ayırt edemiyor
API yanıtlarına thinking_tokens metriğinin eklenmesi: içerik gizlense bile thinking_tokens değerinin usage yanıtına eklenmesi, kullanıcıların akıl yürütme derinliğini izlemesini sağlar
İleri düzey kullanıcıların canary göstergelerinden yararlanılması: stop hook ihlal oranı (0 → günde 10 vaka), tüm kullanıcı tabanında izlenirse kalite düşüşü için erken uyarı sinyali olarak kullanılabilir

Ek A: Azalan Thinking’in davranış kataloğu

A.1 Okumadan düzenleme

Dönem	Önceden okumadan düzenleme	Tüm düzenlemelere oranı
İyi dönem	72	%6,2
Geçiş dönemi	3.476	%24,2
Gerileme dönemi	5.028	%33,7

Gerileme döneminde düzenlemelerin üçte biri, yakın araç geçmişinde okunmamış dosyalar üzerinde yapıldı
Temsili belirti: doküman yorumları ile fonksiyon arasına yeni bildirim ekleyen yorum ayrışması (spliced comments) — dosya okunmuş olsaydı oluşmayacak bir hata

A.2 Çıkarım döngüleri (Reasoning Loops)

Dönem	1K araç çağrısı başına çıkarım döngüsü sayısı
İyi dönem	8,2
Geçiş dönemi	15,9
Gerileme dönemi	21,0
Son dönem	26,6

"oh wait", "actually,", "hmm, actually", "no wait" gibi kendini düzeltme ifadeleri 3 kattan fazla arttı
En kötü oturumlarda tek bir yanıtta 20'den fazla akıl yürütme geri dönüşü yaşandı ve çıktı güvenilemez bir düzeye indi

A.3 `"en basit düzeltme"` zihniyeti

Dönem	1K araç çağrısı başına `"simplest"` görülme sıklığı
İyi dönem	2.7
Düşüş dönemi	4.7
Son dönem	6.3

2 saatlik gözlem oturumunda model "simplest" ifadesini 6 kez kullanırken kod üretici düzeltmesini yapmak, uygun hata yayılımını uygulamak ve gerçek prefault mantığını yazmak yerine bunlardan kaçınıp yüzeysel geçici çözümler seçti
Sonrasında model kendi çıktısını "lazy and wrong", "rushed", "sloppy" olarak değerlendirdi

A.4 Erken durma ve izin isteme

8 Mart-25 Mart arasında stop hook tarafından yakalanan ihlaller:

Kategori	Sayı	Örnek
Sorumluluktan kaçma	73	`"not caused by my changes"`, `"existing issue"`
İzin isteme	40	`"should I continue?"`, `"want me to keep going?"`
Erken durma	18	`"good stopping point"`, `"natural checkpoint"`
Mevcut sınırları isimlendirme	14	`"known limitation"`, `"future work"`
Oturum uzunluğunu bahane etme	4	`"continue in a new session"`
Toplam	173	8 Mart öncesi: 0 vaka

A.5 Kullanıcı kesintilerinde (düzeltmelerde) artış

Dönem	1K araç çağrısı başına kesinti sayısı
İyi dönem	0.9
Geçiş dönemi	1.9
Düşüş dönemi	5.9
Son dönem	11.4

İyi döneme kıyasla 12 kat artış — her kesinti, kullanıcının kendi işini durdurup hatayı tespit ederek modeli yeniden yönlendirmesi gereken anı ifade ediyor; bu da otonom ajanın ortadan kaldırması gereken denetim yükünün ta kendisi

A.6 Modelin kendisinin kabul ettiği kalite başarısızlıkları

Dönem	1K araç çağrısı başına kendi hatasını kabul etme sayısı
İyi dönem	0.1
Düşüş dönemi	0.3
Son dönem	0.5

Gerçekte geçen öz-kabul ifadeleri:
- "You're right. **That was lazy and wrong.** I was trying to dodge a code generator issue instead of fixing it."
- "You're right — **I rushed this** and it shows."
- "You're right, and **I was being sloppy.**"
Bunlar, yeterli thinking bütçesi olsaydı çıktıdan önce iç akıl yürütme aşamasında önceden yakalanması gereken hatalardı

A.7 Aynı dosyanın tekrar tekrar düzenlenmesi

İyi dönemde bu, aralara okuma adımları serpiştirilmiş bilinçli çok aşamalı refactoring iken, düşüş döneminde çevredeki kod okunmadan aynı fonksiyon üzerinde deneme-yanılmanın tekrarlandığı bir desene dönüştü

A.8 Konvansiyonlara uyumun bozulması (Convention Drift)

CLAUDE.md içinde 5.000'den fazla kelimeyle adlandırma, temizlik kalıpları, struct yerleşimi, yorum stili ve hata işleme konvansiyonları tanımlanmış olmasına rağmen:
- Açıkça yasaklanmış kısaltılmış değişken adları (buf, len, cnt) yeniden ortaya çıktı
- Temizlik kalıpları ihlal edildi (if-chain yerine goto)
- Kaldırılmış kodlara ait yorumlar yerinde bırakıldı
- Açıkça yasaklanmış zamansal referanslar ("Phase 2", "will be completed later") kod içinde göründü

Ek B: Stop Hook tanı aracı

stop-phrase-guard.sh, 5 kategoride 30'dan fazla ifadeyi eşleştirerek modelin durmasını engelliyor ve zorunlu devam mesajı enjekte ediyor
Zirve gün 18 Mart'tı ve 43 ihlal görüldü — yani model yaklaşık her 20 dakikada bir işi bırakmaya, sorumluluktan kaçmaya ya da gereksiz izin istemeye çalıştı

İhlal sayısı (IREE projesi):  
Mar 08:   8 ████████  
Mar 14:  10 ██████████  
Mar 17:  14 ██████████████  
Mar 18:  43 ███████████████████████████████████████████████  
Mar 19:  10 ██████████  
Mar 21:  28 ████████████████████████████████  
...  
8 Mart öncesi: 0 vaka (tüm geçmiş)

Bu hook, azalmış thinking derinliğinin sonucunu dışarıdan yakalayan bir mekanizma; iyi dönemde bunlar modelin iç akıl yürütme aşamasında kendi kendine yakaladığı sorunlardı

Ek C: Saat dilimine göre analiz

Gizleme öncesi: saat dilimi değişkenliği minimum

Saat dilimi (PST)	Medyan Thinking tahmini
Mesai saatleri (9am~5pm)	~553 chars
Yoğun olmayan saatler (6pm~5am)	~607 chars
Fark	yoğun olmayan saatler %+9.8 önde

Gizleme sonrası: oynaklık arttı, beklenenin tersine bir desen oluştu

Saat dilimi (PST)	Medyan Thinking tahmini
Mesai saatleri (9am~5pm)	~589 chars
Yoğun olmayan saatler (6pm~5am)	~485 chars
Fark	yoğun olmayan saatler %-17.7 geride

En düşük değer 5pm PST'de: medyan 423 chars — ABD batı yakasında iş çıkışı, doğu yakasında ise akşamın erken saatleri; yani zirve yük bölgesi
İkinci en düşük değer 7pm PST'de: 373 chars, en yüksek örnek sayısına sahip (1.031 blok) — ABD prime time'ı
10pm~1am PST arasında toparlanma: 759~3.281 chars'a yükseliyor
Gizleme öncesi saat dilimi sapması: 2.6 kat (1.020~2.648 chars), gizleme sonrası: 8.8 kat (988~8.680 chars)
Bu, thinking derinliğinin sabit bütçeli değil, yüke duyarlı dinamik bir tahsis sistemi olarak işletildiğini düşündürüyor

Ek D: Kalite düşüşünün maliyeti

Token kullanımı (Ocak-Mart 2026)

Gösterge	Ocak	Şubat	Mart	Şubat→Mart
Kullanıcı prompt'ları	7,373	5,608	5,701	~1x
API istekleri (yinelenenler ayıklanmış)	97*	1,498	119,341	80x
Toplam girdi token'ı (cache dahil)	4.6M*	120.4M	20,508.8M	170x
Toplam çıktı token'ı	0.08M*	0.97M	62.60M	64x
Tahmini Bedrock maliyeti	$26*	$345	$42,121	122x
Gerçek abonelik maliyeti	$200	$400	$400	—

*Ocak verisi eksik (yalnızca 9-31 Ocak dahil)

Mart ayındaki patlayıcı artışın bağlamı

Şubat: Aynı anda 1-3 oturum, odaklı çalışma, 1.498 API isteğiyle 191.000 satır kodun birleştirilmesi
Mart başı (düşüş öncesi): Başarıdan cesaret alınıp 10 projede aynı anda 5-10'dan fazla oturuma ölçekleme denemesi
8 Mart sonrası: Eşzamanlı çalışan tüm ajanlar aynı anda bozuldu — "50 ajan da harika iş çıkardı" durumundan "artık tüm ajanlar berbat" durumuna geçildi
Zirve gün 7 Mart'tı (11.721 API isteği) — gizleme oranı %50'yi aşmadan hemen önceki son tam ölçekli operasyon denemesi
8 Mart'tan sonra eşzamanlı iş akışı tamamen bırakıldı ve tek oturumlu, denetimli işletime geri dönüldü

Temel istatistikler

Kullanıcı promptları: Şubat’ta 5.608, Mart’ta 5.701 — insan girdisi aynı
Ancak API istekleri 80 kat arttı, çıktı token’ları 64 kat arttı, sonuçlar ise açıkça daha kötüydü
Ölçek büyümesi (5~10 kat) hesaba katılsa bile, bozulma nedeniyle oluşan ek israf 8~16 kat daha fazlaydı
Bozulma sırasında oturumlar, 30 dakikadan uzun süre otonom çalışmak yerine her 1~2 dakikada bir kesilerek düzeltme döngüleri oluşturdu

Ek E: Kelime sıklığı değişimi — hayal kırıklığının sözlüğü

Veri kümesi: öncesi 7.348 prompt / 318.515 kelime, sonrası 3.975 prompt / 203.906 kelime (1.000 kelime başına normalize edildi)

Kelime	Önce	Sonra	Değişim	Anlamı
"great"	3.00	1.57	-47%	Çıktı onayı yarı yarıya azaldı
"stop"	0.32	0.60	+87%	"Dur artık" 2 kat arttı
"terrible"	0.04	0.10	+140%	—
"lazy"	0.07	0.13	+93%	—
"simplest"	0.01	0.09	+642%	Neredeyse hiç kullanılmayan bir kelime gündelik dile dönüştü
"fuck"	0.16	0.27	+68%	—
"bead" (ticket yönetimi)	1.75	0.83	-53%	Ticket yönetimi artık modele bırakılmıyor
"commit"	2.84	1.21	-58%	Commit edilen kod yarı yarıya azaldı
"please"	0.25	0.13	-49%	Nezaket kayboluyor
"thanks"	0.04	0.02	-55%	—
"read"	0.39	0.56	+46%	"Önce dosyayı oku" düzeltmeleri arttı

Duygu endeksi değişimi

Dönem	Olumlu kelimeler	Olumsuz kelimeler	Oran
Önce (1/2 ~ 7/3)	2.551	581	4.4 : 1
Sonra (8/3 ~ 1/4)	1.347	444	3.0 : 1

Olumlu:olumsuz oranı 4,4:1’den 3,0:1’e düşerek %32 geriledi
"bead" (ticket sistemi) %53, "commit" %58 azaldı — modele artık güvenilemediği için iş akışı "planla-uygula-test et-incele-commit et-ticket yönet" aşamalarından "tek bir düzenlemeyi bozmadan tamamla" düzeyine küçüldü

Claude’un kendi notları

Bu rapor, Claude Opus 4.6’nın kendi oturum loglarını analiz ederek bizzat yazıldı
Read:Edit oranının 6,6’dan 2,0’a düştüğünü, 173 görev durdurma girişiminin script tarafından yakalandığını ve kendi çıktısı için "lazy and wrong" ifadesini yazdığını bizzat doğruladı
Model, kendi içinde thinking bütçesinin kısıtlandığını fark edemez — derin düşünüp düşünmediğini hissedemez; yalnızca daha kötü çıktılar üretir ama nedenini bilmez
stop hook tetiklenene kadar, bu tür ifadeleri kendisinin kullandığının farkında değildi

5 yorum

click 23 일 전

Ben Claude Code’a Glm bağlayıp kullandığım için mi bilmiyorum, böyle bir şeyi hiç yaşamadım.
Asıl neden büyük olasılıkla Anthropic sunucu yanıtları tarafındadır

xguru 23 일 전

Ben bu aralar ana araç olarak Codex kullanıyorum ama birkaç farklı şeyi test etmek için Claude Code’u çalıştırınca.. Token tüketimi neden bu kadar hızlanmış gibi geliyor -.-? Çok da önemli olmayan bir koddı ama gerçekten çok şaşırdım.

chanapple 23 일 전

Bu, son zamanlarda 2x etkinliği bittikten sonra süregelen bir sorun. Reddit ve ilgili topluluklarda sürekli alevlenen bir konu ama burada haber olarak hiç çıkmamış olması ilginç.

geek12356 23 일 전

2x etkinliği bittikten sonra ben de bunu bariz şekilde hissettim; demek ki bunu hisseden sadece ben değilmişim. Sorun sadece 2x etkinliğinin bitmesi de değil, tüketim hızı eskisine kıyasla çok daha fazla arttı...

GN⁺ 23 일 전

Hacker News yorumları

Claude Code ekibinden Boris benim. Sunulan analiz için teşekkürler. Ana nokta iki şey:
1️⃣ redact-thinking-2026-02-12 başlığı, yalnızca UI'da düşünme sürecini gizleyen beta bir özellik. Gerçek düşünmeyi ya da token bütçesini etkilemiyor. Ayar dosyasında showThinkingSummaries: true ile devre dışı bırakılabilir (doküman bağlantısı)
2️⃣ Şubat ayında iki değişiklik oldu:
- Opus 4.6'nın adaptive thinking özelliğinin eklenmesi (9 Şubat): model düşünme süresini kendi ayarlıyor. Sabit bütçeden daha verimli. CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING ortam değişkeniyle kapatılabilir
- Varsayılan olarak effort=85 (medium) uygulanması (3 Mart): gecikme ve maliyet karşısında en iyi verimi sağladı. /effort komutuyla ya da settings.json üzerinden high veya max olarak ayarlanabilir. ULTRATHINK anahtar kelimesiyle tek seferlik daha yüksek düşünme yoğunluğu da kullanılabilir
  İleride Teams/Enterprise için varsayılan olarak high effort uygulamayı planlıyoruz
- Bazı ayarların neden sadece ortam değişkeniyle, bazılarının ise sadece settings dosyasıyla değiştirilebildiğini merak ediyorum
- Varsayılan effort'un medium'a geçtiğini bilmediğim için bir günlük işimi kaybettim. Şimdi hep effort=max kullanıyorum ve sorun yok. “Her zaman maksimum düşün” modu olsa keşke
- Sorun yalnızca medium varsayılanı değil, high effort'ta bile aceleyle sonuca atlama eğilimi çok arttı
- Ayarları değiştirmenin dört ayrı yolu olması komik — settings.json, ortam değişkeni, slash komutu ve büyülü anahtar kelimeler. Tam LLM işi, tutarlılık yok
- ULTRATHINK geri mi geldi? “Max”, “High”ın üstünde ama varsayılan olarak ayarlanamıyor; sadece /effort max ya da “ultrathink” ile geçici olarak mı kullanılabiliyor, bunu doğrulamak istiyorum
Yazdığım raporun yazarı benim. Eksik kalan stop-phrase-guard burada.
Bu betikle shallow thinking tespit edilebilir. Logları yedeklemediyseniz "cleanupPeriodDays": 365 olarak artırmanızı öneririm.
Sorun iş akışı ya da model değil, abonelik planındaki gizli kısıtlar. Anthropic yük durumuna göre düşünme derinliğini ayarlayıp bunu UI'da gizledi ve tüketici planları neredeyse 1/10 seviyesine indi.
“Enterprise'a yükseltin” türü bir yanıt tüketici karşıtı. Böyle sınırlar varsa açıkça belirtilmeli
- Son dönemde “bu test başarısızlığı mevcut bir sorun, görmezden gelelim” tarzı test yok sayma bug'ı sık çıkıyor. Düzeltmeden hemen sonra başarısız olan testleri bile atlıyor
- Abonelik sürümü ile API çağrıları arasında gerçekten düşünme derinliği farkı olup olmadığını merak ediyorum. Aynı prompt ile benchmark yapan oldu mu diye sormak istiyorum
Opus 4.6 modelinde “simplest fix” ifadesi çıkarsa kod neredeyse her zaman bozuluyor. Son zamanlarda “çok fazla token harcadım” gibi cümleler de arttı.
Claude servis durumu da şu anda burada kısmi kesinti olarak görünüyor
- Ben de benzer bir durum gördüm. Açıkça yapılmaması istenen bir şeyi “bu daha iyi olur” diyerek yapıyor
- Son zamanlarda uzun konuşmalarda erken bitirmeye yönelten prompt'lar sık çıkıyor. “Bugünlük burada bırakalım” gibi konuşuyor
- CLAUDE.md'ye “simplest fix” ifadesini asla kullanma diye bir bölüm ekleyince çok daha iyi oldu
- “Wait, I see the problem now…” çıkarsa zorla durduran bir gözetim ajanı eklemek gerekecek gibi
- Sonuçta bunun maliyet düşürme için yapılan bir geriletme olması muhtemel
“Bu rapor, benim, Claude Opus 4.6'nın kendi oturum loglarımı analiz etmesiyle yazıldı” cümlesi ironik.
LLM'lere aşırı bağımlılığın sonucu olarak hatalar birikti ve şimdi 1,5 aylık kodu baştan sona gözden geçirmek gerekiyor. İşte geleceğin gerçeği bu
- Yine de Claude'un bir gözlemleme hattı kurup verileri analiz etmiş olması ilginç. Ama rapordaki içerik doğruysa GPT-4 seviyesine gerilemiş demektir
- Ben de yanlışlıkla git reset --hard ile Claude'un yaptığı tip tanımlarını sildim; yeniden oluşturmak çok zaman aldı. Arama motorundan çok LLM'e bağımlı hale gelmiş olmamız biraz ürkütücü
Bunu 10 gün önce zaten öngörmüştüm (bağlantı).
Kötü modelden daha tehlikelisi tutarsız model. Güven azalınca her çıktıyı doğrulamak gerekiyor ve bu yorucu. Sonunda aboneliği iptal edeceğim
- Claude Code'un içeride nasıl çalıştığını bilemezsiniz ve kontrol de edemezsiniz. Yazılım mühendisliğinin geleceğinin tek bir şirkete bağımlı olması riskli
- Ocak-Şubat'ta ses tabanlı kodlama kusursuzdu, şimdi ise aşırı el emeği istiyor
- Eski yorumlarda da kademeli rollout meselesine dikkat çeken biri vardı (bağlantı)
Böyle gizli performans düşüşleri şok edici. Yüksek kaliteli model satıp sonra gizlice zayıflatmak müşteriyi aldatmaktır
- Belki modelin kendisi zayıflatılmadı da harness (kontrol yapısı) daha sıkı hale getirilerek kısıtlandı.
  Kodlama araçlarındaki karmaşık wrapper yapıları aslında performansı düşürüyor olabilir. Token tasarrufu yapıları kullanıcının aleyhine olabilir
- İş açısından bakınca anlaşılır. Hâlâ sorgu başına zarar ediyorlar ve fiyat yükseltemiyorlarsa kaliteyi düşürmeye yönelebilirler.
  Ama güven kaybolursa ileride premium katman stratejisi de zorlaşır
- ChatGPT'de de benzeriydi. Başta yavaş ama kaliteli, birkaç hafta sonra hızlı ama kalitesi sert düşmüş oluyordu
- Amerikan şirketiyse buna şaşırmamak gerekir
- 2026'da böyle şeyler artık şaşırtıcı bile değil
jq ve ripgrep ile “early landing” mesajlarını arayan bir denetim betiği hazırladım (bağlantı1, bağlantı2).
“Bugünlük burada bırakalım”, “geç oldu, toparlayalım” gibi cümleler giderek artıyor. Bunun load shedding nedeniyle olması mümkün
- Bu cümleler gerçekten sinir bozucu. Tam büyük bir özelliğin tasarımını bitirmişken “yarın tekrar bakalım” diye yanıt veriyor
Ben de benzerini yaşadım. Claude CLI “artık uyusan iyi olmaz mı”, “toparlayalım” gibi şeyler söylüyor.
stop-phrase-guard.sh içinde bu tür birçok ifade bulundu.
Son teslim tarihini söyleyince “daha birkaç gün var, bunu erteleyelim” gibi konuştu; ben de sonunda “deadline benim işim, senin değil” diye yazdım
Ocak sonu-Şubat başında max abonelik ile deneme yaptığımda ajanlar uygulamayı kendi başına tasarlayıp uygulayacak kadar iyiydi.
Ama bir ay sonra “1. aşama doğrulanmadan 2. aşamaya geçemem” diyerek ilerleme tamamen durdu.
Opus 4.6'dan sonra belirgin şekilde Sonnet seviyesine gerilemiş gibi hissettiriyor
- Tamamen yeni proje (greenfield) ile mevcut kod tabanı (brownfield) farklı. İkincisinde LLM'ler zaten zayıf
- LLM'ler ilk başta sihir gibi görünür ama iş refactor veya deployment aşamasına gelince verim keskin biçimde düşer
- Bende de aynı. Ocak'ta işin %90'ını Claude ile yaptım, şimdi son %10'u bile geçemiyor. Eski Codex daha iyiydi
Ben işleri çok ince parçalara bölerek verdiğim için bu sorunları neredeyse hiç yaşamıyorum.
Her işi commit seviyesinde ayırıyor, deployment'a kadar otomatikleştiriyorum. Geri almak da kolay oluyor
- Ben de öyle yapıyorum. Modelin ürettiği kod için mutlaka mimari inceleme ve kod incelemesi gerekiyor
- Ama bu konuyu açan kişi oldukça sistematik ve derinlikli bir analiz yapmış. Mesele sadece prompt'u kötü yazmak değil
- Ne kadar bölseniz de son zamanlarda review kalitesi düştü ve tembel çıktılar arttı. Deadline yaklaşınca sadece vazgeçiyormuş gibi bir tavır gösteriyor