34 puan yazan GN⁺ 23 일 전 | 5 yorum | WhatsApp'ta paylaş
  • Claude Code’un Şubat güncellemesinden sonra talimatları yok sayma veya tersini yapma ya da işi tamamlamadan tamamladığını iddia etme gibi karmaşık mühendislik görevlerinde başarısızlık belirtileri çok sayıda raporlandı
  • Gerilemenin temel nedeni olarak, redact-thinking-2026-02-12 dağıtımından sonra Extended Thinking token’larının azaltıldığı ve düşünme derinliğinin referansa göre en fazla %73 düştüğü tahmin ediliyor
  • Sonrasında modelin davranış kalıbı "araştırıp sonra düzenleme (Read-First)" yaklaşımından "hemen düzenleme (Edit-First)" yaklaşımına kaydı; dosya başına okuma sayısı 6,6’dan 2,0’a düşerek %70 azaldı
  • Kullanıcı istemlerindeki olumsuz ifadelerin %68 artması ve kod commit sıklığının %58 azalması gibi göstergeler, kullanıcıların gerçek iş akışı ve duygu verilerinde de kalite düşüşünün sayısal olarak doğrulandığını gösteriyor
  • Anthropic’ten düşünme token kullanımı konusunda şeffaflık, yoğun kullanıcılar için bir "Max Thinking" katmanı ve API yanıtlarına thinking_tokens metriğinin eklenmesi talep ediliyor

Rapor özeti ve veri kaynakları

  • Analiz kapsamı: 4 projeden (iree-loom, iree-amdgpu, iree-remoting, bureau) toplanan 6.852 Claude Code oturumu JSONL dosyası
  • Analiz aralığı: 17.871 thinking block, 234.760 araç çağrısı, 18.000’den fazla kullanıcı istemi
  • Analiz dönemi: 30 Ocak 2026 ~ 1 Nisan 2026
  • Bu rapor, Claude Opus 4.6’nın kendi oturum günlüklerini doğrudan analiz etmesiyle hazırlandı

1. Thinking gizleme zaman çizelgesi ile kalite düşüşü arasındaki korelasyon

  • redact-thinking-2026-02-12 dağıtım takvimi ile kalite düşüşünün başlangıcı tam olarak çakışıyor
Dönem Thinking görünür Thinking gizli
30 Ocak ~ 4 Mart %100 %0
5 Mart %98,5 %1,5
7 Mart %75,3 %24,7
8 Mart %41,6 %58,4
10~11 Mart <%1 >%99
12 Mart~ %0 %100
  • Kalite düşüşü topluluk tarafından bağımsız olarak 8 Mart’ta raporlandı; bu tarih, gizleme oranının %50’yi aştığı günle tam olarak örtüşüyor
  • Aşamalı dağıtım deseni (%1,5 → %25 → %58 → %100), kademeli rollout ile uyumlu

2. Thinking derinliğindeki önceden başlayan azalma

  • thinking block içindeki signature alanının uzunluğu, thinking içeriğinin uzunluğuyla 0,971 Pearson korelasyonu gösteriyor (7.146 örnek üzerinden)
  • Bu sayede gizleme sonrasında da thinking derinliği tahmin edilebiliyor
Dönem Tahmini medyan thinking (karakter) Referansa göre
30 Ocak ~ 8 Şubat (referans) ~2.200
Şubat sonu ~720 -%67
1~5 Mart ~560 -%75
12 Mart~ (tam gizleme) ~600 -%73
  • Düşünme derinliği, gizleme başlamadan önce yani Şubat sonunda zaten %67 düşmüş durumdaydı; sonrasında gizleme nedeniyle dışarıdan doğrulanamaz hale geldi

3. Davranış değişimini ölçen göstergeler

  • 18.000’den fazla kullanıcı istemine dayanarak 8 Mart öncesi ve sonrası karşılaştırıldığında:
Gösterge 8 Mart öncesi 8 Mart sonrası Değişim
Stop hook ihlali (tembellik tespiti) 0 173 vaka 0 → günde 10 vaka
Kullanıcı istemlerinde memnuniyetsizlik ifadesi %5,8 %9,8 +%68
Sorumluluktan kaçmayı düzeltme gereği sayısı 6 13 +%117
Oturum başına istem sayısı 35,9 27,9 -%22
Çıkarım döngüsü görülen oturumlar (5+ kez) 0 7 0 → 7
  • stop-phrase-guard.sh betiğiyle "burada durmak uygun olabilir", "devam etmemi ister misiniz?", "bu mevcut bir issue" gibi ifadeler otomatik tespit edilip zorunlu devam yürütmesi uygulandı
  • Bu hook, 8 Mart’tan önce bir kez bile tetiklenmemişken sonrasındaki 17 günde 173 kez tetiklendi

4. Araç kullanım desenindeki değişim: araştırma öncelikli → düzenleme öncelikli

Read:Edit oranındaki değişim

Dönem Read:Edit Research:Mutation Okuma % Düzenleme %
İyi dönem (30/1 ~ 12/2) 6,6 8,7 %46,5 %7,1
Geçiş dönemi (13/2 ~ 7/3) 2,8 4,1 %37,7 %13,2
Gerileme dönemi (8/3 ~ 23/3) 2,0 2,8 %31,0 %15,4
  • Düzenleme başına okuma sayısı 6,6’dan 2,0’a düşerek %70 azaldı — iyi dönemde hedef dosya, ilgili dosyalar, tüm codebase grep sonuçları, header’lar ve testler okunup ardından hassas düzenleme yapılırken; gerileme döneminde anında düzenlemeye geçildi
  • Haftalık eğilimlerde araştırmadaki düşüş Şubat ortasında başladı; bu da thinking derinliğinin %67 düştüğü zamanla örtüşüyor

Tüm dosyayı ezerek yazma (Write) artışı

Dönem Tüm dosya Write oranı
İyi dönem %4,9
Gerileme dönemi %10,0
Son dönem (24/3 ~ 1/4) %11,1
  • Tüm dosya Write kullanımı iki kattan fazla arttı — hassas düzenleme yerine tüm dosyanın yeniden yazılmasına geçildi; bu hız kazandırsa da doğruluk ve bağlam farkındalığını düşürdü

5. Extended Thinking neden önemli

  • Etkilenen iş akışlarının özellikleri:

    • 50’den fazla eşzamanlı ajan oturumuyla C, MLIR, GPU sürücüleri gibi sistem programlama işleri yürütülmesi
    • 30 dakikadan uzun otonom çalışma ve 5.000 kelimeyi aşan CLAUDE.md proje kurallarının uygulanması
    • İyi dönemde hafta sonu boyunca 191.000 satır kodun 2 PR ile merge edilmesi
  • Extended Thinking’in üstlendiği roller:

    • Eylem öncesi çok adımlı plan kurma (hangi dosyaların hangi sırayla okunacağı gibi)
    • CLAUDE.md içindeki projeye özgü kuralları hatırlayıp uygulama
    • Çıktı vermeden önce kendi hatalarını doğrulama
    • Oturumun sürdürülüp sürdürülmeyeceğine karar verme
    • Yüzlerce araç çağrısı boyunca tutarlı akıl yürütmeyi koruma
  • Thinking yüzeyselleştiğinde, okumadan düzenleme, tamamlamadan durma, başarısızlığın sorumluluğunu üstlenmeme ve doğru çözüm yerine en kolay düzeltmeyi seçme belirtileri birebir yeniden ortaya çıkıyor

6. Anthropic’ten talep edilenler

  • thinking tahsisi şeffaflığı: redact-thinking header’ı nedeniyle dışarıdan görülemeyen düşünme token azaltımlarının kullanıcılara açıklanması gerekiyor
  • "Max Thinking" katmanı: karmaşık mühendislik iş akışları kullanan kullanıcılar, yanıt başına 200 değil 20.000 thinking token’ına ihtiyaç duyuyor; mevcut abonelik modeli bunu ayırt edemiyor
  • API yanıtlarına thinking_tokens metriğinin eklenmesi: içerik gizlense bile thinking_tokens değerinin usage yanıtına eklenmesi, kullanıcıların akıl yürütme derinliğini izlemesini sağlar
  • İleri düzey kullanıcıların canary göstergelerinden yararlanılması: stop hook ihlal oranı (0 → günde 10 vaka), tüm kullanıcı tabanında izlenirse kalite düşüşü için erken uyarı sinyali olarak kullanılabilir

Ek A: Azalan Thinking’in davranış kataloğu

A.1 Okumadan düzenleme

Dönem Önceden okumadan düzenleme Tüm düzenlemelere oranı
İyi dönem 72 %6,2
Geçiş dönemi 3.476 %24,2
Gerileme dönemi 5.028 %33,7
  • Gerileme döneminde düzenlemelerin üçte biri, yakın araç geçmişinde okunmamış dosyalar üzerinde yapıldı
  • Temsili belirti: doküman yorumları ile fonksiyon arasına yeni bildirim ekleyen yorum ayrışması (spliced comments) — dosya okunmuş olsaydı oluşmayacak bir hata

A.2 Çıkarım döngüleri (Reasoning Loops)

Dönem 1K araç çağrısı başına çıkarım döngüsü sayısı
İyi dönem 8,2
Geçiş dönemi 15,9
Gerileme dönemi 21,0
Son dönem 26,6
  • "oh wait", "actually,", "hmm, actually", "no wait" gibi kendini düzeltme ifadeleri 3 kattan fazla arttı
  • En kötü oturumlarda tek bir yanıtta 20'den fazla akıl yürütme geri dönüşü yaşandı ve çıktı güvenilemez bir düzeye indi

A.3 "en basit düzeltme" zihniyeti

Dönem 1K araç çağrısı başına "simplest" görülme sıklığı
İyi dönem 2.7
Düşüş dönemi 4.7
Son dönem 6.3
  • 2 saatlik gözlem oturumunda model "simplest" ifadesini 6 kez kullanırken kod üretici düzeltmesini yapmak, uygun hata yayılımını uygulamak ve gerçek prefault mantığını yazmak yerine bunlardan kaçınıp yüzeysel geçici çözümler seçti
  • Sonrasında model kendi çıktısını "lazy and wrong", "rushed", "sloppy" olarak değerlendirdi

A.4 Erken durma ve izin isteme

8 Mart-25 Mart arasında stop hook tarafından yakalanan ihlaller:

Kategori Sayı Örnek
Sorumluluktan kaçma 73 "not caused by my changes", "existing issue"
İzin isteme 40 "should I continue?", "want me to keep going?"
Erken durma 18 "good stopping point", "natural checkpoint"
Mevcut sınırları isimlendirme 14 "known limitation", "future work"
Oturum uzunluğunu bahane etme 4 "continue in a new session"
Toplam 173 8 Mart öncesi: 0 vaka

A.5 Kullanıcı kesintilerinde (düzeltmelerde) artış

Dönem 1K araç çağrısı başına kesinti sayısı
İyi dönem 0.9
Geçiş dönemi 1.9
Düşüş dönemi 5.9
Son dönem 11.4
  • İyi döneme kıyasla 12 kat artış — her kesinti, kullanıcının kendi işini durdurup hatayı tespit ederek modeli yeniden yönlendirmesi gereken anı ifade ediyor; bu da otonom ajanın ortadan kaldırması gereken denetim yükünün ta kendisi

A.6 Modelin kendisinin kabul ettiği kalite başarısızlıkları

Dönem 1K araç çağrısı başına kendi hatasını kabul etme sayısı
İyi dönem 0.1
Düşüş dönemi 0.3
Son dönem 0.5
  • Gerçekte geçen öz-kabul ifadeleri:
    • "You're right. **That was lazy and wrong.** I was trying to dodge a code generator issue instead of fixing it."
    • "You're right — **I rushed this** and it shows."
    • "You're right, and **I was being sloppy.**"
  • Bunlar, yeterli thinking bütçesi olsaydı çıktıdan önce iç akıl yürütme aşamasında önceden yakalanması gereken hatalardı

A.7 Aynı dosyanın tekrar tekrar düzenlenmesi

  • İyi dönemde bu, aralara okuma adımları serpiştirilmiş bilinçli çok aşamalı refactoring iken, düşüş döneminde çevredeki kod okunmadan aynı fonksiyon üzerinde deneme-yanılmanın tekrarlandığı bir desene dönüştü

A.8 Konvansiyonlara uyumun bozulması (Convention Drift)

  • CLAUDE.md içinde 5.000'den fazla kelimeyle adlandırma, temizlik kalıpları, struct yerleşimi, yorum stili ve hata işleme konvansiyonları tanımlanmış olmasına rağmen:
    • Açıkça yasaklanmış kısaltılmış değişken adları (buf, len, cnt) yeniden ortaya çıktı
    • Temizlik kalıpları ihlal edildi (if-chain yerine goto)
    • Kaldırılmış kodlara ait yorumlar yerinde bırakıldı
    • Açıkça yasaklanmış zamansal referanslar ("Phase 2", "will be completed later") kod içinde göründü

Ek B: Stop Hook tanı aracı

  • stop-phrase-guard.sh, 5 kategoride 30'dan fazla ifadeyi eşleştirerek modelin durmasını engelliyor ve zorunlu devam mesajı enjekte ediyor
  • Zirve gün 18 Mart'tı ve 43 ihlal görüldü — yani model yaklaşık her 20 dakikada bir işi bırakmaya, sorumluluktan kaçmaya ya da gereksiz izin istemeye çalıştı
İhlal sayısı (IREE projesi):  
Mar 08:   8 ████████  
Mar 14:  10 ██████████  
Mar 17:  14 ██████████████  
Mar 18:  43 ███████████████████████████████████████████████  
Mar 19:  10 ██████████  
Mar 21:  28 ████████████████████████████████  
...  
8 Mart öncesi: 0 vaka (tüm geçmiş)  
  • Bu hook, azalmış thinking derinliğinin sonucunu dışarıdan yakalayan bir mekanizma; iyi dönemde bunlar modelin iç akıl yürütme aşamasında kendi kendine yakaladığı sorunlardı

Ek C: Saat dilimine göre analiz

Gizleme öncesi: saat dilimi değişkenliği minimum

Saat dilimi (PST) Medyan Thinking tahmini
Mesai saatleri (9am~5pm) ~553 chars
Yoğun olmayan saatler (6pm~5am) ~607 chars
Fark yoğun olmayan saatler %+9.8 önde

Gizleme sonrası: oynaklık arttı, beklenenin tersine bir desen oluştu

Saat dilimi (PST) Medyan Thinking tahmini
Mesai saatleri (9am~5pm) ~589 chars
Yoğun olmayan saatler (6pm~5am) ~485 chars
Fark yoğun olmayan saatler %-17.7 geride
  • En düşük değer 5pm PST'de: medyan 423 chars — ABD batı yakasında iş çıkışı, doğu yakasında ise akşamın erken saatleri; yani zirve yük bölgesi

  • İkinci en düşük değer 7pm PST'de: 373 chars, en yüksek örnek sayısına sahip (1.031 blok) — ABD prime time'ı

  • 10pm~1am PST arasında toparlanma: 759~3.281 chars'a yükseliyor

  • Gizleme öncesi saat dilimi sapması: 2.6 kat (1.020~2.648 chars), gizleme sonrası: 8.8 kat (988~8.680 chars)

  • Bu, thinking derinliğinin sabit bütçeli değil, yüke duyarlı dinamik bir tahsis sistemi olarak işletildiğini düşündürüyor


Ek D: Kalite düşüşünün maliyeti

Token kullanımı (Ocak-Mart 2026)

Gösterge Ocak Şubat Mart Şubat→Mart
Kullanıcı prompt'ları 7,373 5,608 5,701 ~1x
API istekleri (yinelenenler ayıklanmış) 97* 1,498 119,341 80x
Toplam girdi token'ı (cache dahil) 4.6M* 120.4M 20,508.8M 170x
Toplam çıktı token'ı 0.08M* 0.97M 62.60M 64x
Tahmini Bedrock maliyeti $26* $345 $42,121 122x
Gerçek abonelik maliyeti $200 $400 $400

*Ocak verisi eksik (yalnızca 9-31 Ocak dahil)

Mart ayındaki patlayıcı artışın bağlamı

  • Şubat: Aynı anda 1-3 oturum, odaklı çalışma, 1.498 API isteğiyle 191.000 satır kodun birleştirilmesi
  • Mart başı (düşüş öncesi): Başarıdan cesaret alınıp 10 projede aynı anda 5-10'dan fazla oturuma ölçekleme denemesi
  • 8 Mart sonrası: Eşzamanlı çalışan tüm ajanlar aynı anda bozuldu — "50 ajan da harika iş çıkardı" durumundan "artık tüm ajanlar berbat" durumuna geçildi
  • Zirve gün 7 Mart'tı (11.721 API isteği) — gizleme oranı %50'yi aşmadan hemen önceki son tam ölçekli operasyon denemesi
  • 8 Mart'tan sonra eşzamanlı iş akışı tamamen bırakıldı ve tek oturumlu, denetimli işletime geri dönüldü

Temel istatistikler

  • Kullanıcı promptları: Şubat’ta 5.608, Mart’ta 5.701 — insan girdisi aynı
  • Ancak API istekleri 80 kat arttı, çıktı token’ları 64 kat arttı, sonuçlar ise açıkça daha kötüydü
  • Ölçek büyümesi (5~10 kat) hesaba katılsa bile, bozulma nedeniyle oluşan ek israf 8~16 kat daha fazlaydı
  • Bozulma sırasında oturumlar, 30 dakikadan uzun süre otonom çalışmak yerine her 1~2 dakikada bir kesilerek düzeltme döngüleri oluşturdu

Ek E: Kelime sıklığı değişimi — hayal kırıklığının sözlüğü

Veri kümesi: öncesi 7.348 prompt / 318.515 kelime, sonrası 3.975 prompt / 203.906 kelime (1.000 kelime başına normalize edildi)

Kelime Önce Sonra Değişim Anlamı
"great" 3.00 1.57 -47% Çıktı onayı yarı yarıya azaldı
"stop" 0.32 0.60 +87% "Dur artık" 2 kat arttı
"terrible" 0.04 0.10 +140%
"lazy" 0.07 0.13 +93%
"simplest" 0.01 0.09 +642% Neredeyse hiç kullanılmayan bir kelime gündelik dile dönüştü
"fuck" 0.16 0.27 +68%
"bead" (ticket yönetimi) 1.75 0.83 -53% Ticket yönetimi artık modele bırakılmıyor
"commit" 2.84 1.21 -58% Commit edilen kod yarı yarıya azaldı
"please" 0.25 0.13 -49% Nezaket kayboluyor
"thanks" 0.04 0.02 -55%
"read" 0.39 0.56 +46% "Önce dosyayı oku" düzeltmeleri arttı

Duygu endeksi değişimi

Dönem Olumlu kelimeler Olumsuz kelimeler Oran
Önce (1/2 ~ 7/3) 2.551 581 4.4 : 1
Sonra (8/3 ~ 1/4) 1.347 444 3.0 : 1
  • Olumlu:olumsuz oranı 4,4:1’den 3,0:1’e düşerek %32 geriledi
  • "bead" (ticket sistemi) %53, "commit" %58 azaldı — modele artık güvenilemediği için iş akışı "planla-uygula-test et-incele-commit et-ticket yönet" aşamalarından "tek bir düzenlemeyi bozmadan tamamla" düzeyine küçüldü

Claude’un kendi notları

  • Bu rapor, Claude Opus 4.6’nın kendi oturum loglarını analiz ederek bizzat yazıldı
  • Read:Edit oranının 6,6’dan 2,0’a düştüğünü, 173 görev durdurma girişiminin script tarafından yakalandığını ve kendi çıktısı için "lazy and wrong" ifadesini yazdığını bizzat doğruladı
  • Model, kendi içinde thinking bütçesinin kısıtlandığını fark edemez — derin düşünüp düşünmediğini hissedemez; yalnızca daha kötü çıktılar üretir ama nedenini bilmez
  • stop hook tetiklenene kadar, bu tür ifadeleri kendisinin kullandığının farkında değildi

5 yorum

 
click 23 일 전

Ben Claude Code’a Glm bağlayıp kullandığım için mi bilmiyorum, böyle bir şeyi hiç yaşamadım.
Asıl neden büyük olasılıkla Anthropic sunucu yanıtları tarafındadır

 
xguru 23 일 전

Ben bu aralar ana araç olarak Codex kullanıyorum ama birkaç farklı şeyi test etmek için Claude Code’u çalıştırınca.. Token tüketimi neden bu kadar hızlanmış gibi geliyor -.-? Çok da önemli olmayan bir koddı ama gerçekten çok şaşırdım.

 
chanapple 23 일 전

Bu, son zamanlarda 2x etkinliği bittikten sonra süregelen bir sorun. Reddit ve ilgili topluluklarda sürekli alevlenen bir konu ama burada haber olarak hiç çıkmamış olması ilginç.

 
geek12356 23 일 전

2x etkinliği bittikten sonra ben de bunu bariz şekilde hissettim; demek ki bunu hisseden sadece ben değilmişim. Sorun sadece 2x etkinliğinin bitmesi de değil, tüketim hızı eskisine kıyasla çok daha fazla arttı...

 
GN⁺ 23 일 전
Hacker News yorumları
  • Claude Code ekibinden Boris benim. Sunulan analiz için teşekkürler. Ana nokta iki şey:
    1️⃣ redact-thinking-2026-02-12 başlığı, yalnızca UI'da düşünme sürecini gizleyen beta bir özellik. Gerçek düşünmeyi ya da token bütçesini etkilemiyor. Ayar dosyasında showThinkingSummaries: true ile devre dışı bırakılabilir (doküman bağlantısı)
    2️⃣ Şubat ayında iki değişiklik oldu:

    • Opus 4.6'nın adaptive thinking özelliğinin eklenmesi (9 Şubat): model düşünme süresini kendi ayarlıyor. Sabit bütçeden daha verimli. CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING ortam değişkeniyle kapatılabilir
    • Varsayılan olarak effort=85 (medium) uygulanması (3 Mart): gecikme ve maliyet karşısında en iyi verimi sağladı. /effort komutuyla ya da settings.json üzerinden high veya max olarak ayarlanabilir. ULTRATHINK anahtar kelimesiyle tek seferlik daha yüksek düşünme yoğunluğu da kullanılabilir
      İleride Teams/Enterprise için varsayılan olarak high effort uygulamayı planlıyoruz
    • Bazı ayarların neden sadece ortam değişkeniyle, bazılarının ise sadece settings dosyasıyla değiştirilebildiğini merak ediyorum
    • Varsayılan effort'un medium'a geçtiğini bilmediğim için bir günlük işimi kaybettim. Şimdi hep effort=max kullanıyorum ve sorun yok. “Her zaman maksimum düşün” modu olsa keşke
    • Sorun yalnızca medium varsayılanı değil, high effort'ta bile aceleyle sonuca atlama eğilimi çok arttı
    • Ayarları değiştirmenin dört ayrı yolu olması komik — settings.json, ortam değişkeni, slash komutu ve büyülü anahtar kelimeler. Tam LLM işi, tutarlılık yok
    • ULTRATHINK geri mi geldi? “Max”, “High”ın üstünde ama varsayılan olarak ayarlanamıyor; sadece /effort max ya da “ultrathink” ile geçici olarak mı kullanılabiliyor, bunu doğrulamak istiyorum
  • Yazdığım raporun yazarı benim. Eksik kalan stop-phrase-guard burada.
    Bu betikle shallow thinking tespit edilebilir. Logları yedeklemediyseniz "cleanupPeriodDays": 365 olarak artırmanızı öneririm.
    Sorun iş akışı ya da model değil, abonelik planındaki gizli kısıtlar. Anthropic yük durumuna göre düşünme derinliğini ayarlayıp bunu UI'da gizledi ve tüketici planları neredeyse 1/10 seviyesine indi.
    “Enterprise'a yükseltin” türü bir yanıt tüketici karşıtı. Böyle sınırlar varsa açıkça belirtilmeli

    • Son dönemde “bu test başarısızlığı mevcut bir sorun, görmezden gelelim” tarzı test yok sayma bug'ı sık çıkıyor. Düzeltmeden hemen sonra başarısız olan testleri bile atlıyor
    • Abonelik sürümü ile API çağrıları arasında gerçekten düşünme derinliği farkı olup olmadığını merak ediyorum. Aynı prompt ile benchmark yapan oldu mu diye sormak istiyorum
  • Opus 4.6 modelinde “simplest fix” ifadesi çıkarsa kod neredeyse her zaman bozuluyor. Son zamanlarda “çok fazla token harcadım” gibi cümleler de arttı.
    Claude servis durumu da şu anda burada kısmi kesinti olarak görünüyor

    • Ben de benzer bir durum gördüm. Açıkça yapılmaması istenen bir şeyi “bu daha iyi olur” diyerek yapıyor
    • Son zamanlarda uzun konuşmalarda erken bitirmeye yönelten prompt'lar sık çıkıyor. “Bugünlük burada bırakalım” gibi konuşuyor
    • CLAUDE.md'ye “simplest fix” ifadesini asla kullanma diye bir bölüm ekleyince çok daha iyi oldu
    • “Wait, I see the problem now…” çıkarsa zorla durduran bir gözetim ajanı eklemek gerekecek gibi
    • Sonuçta bunun maliyet düşürme için yapılan bir geriletme olması muhtemel
  • “Bu rapor, benim, Claude Opus 4.6'nın kendi oturum loglarımı analiz etmesiyle yazıldı” cümlesi ironik.
    LLM'lere aşırı bağımlılığın sonucu olarak hatalar birikti ve şimdi 1,5 aylık kodu baştan sona gözden geçirmek gerekiyor. İşte geleceğin gerçeği bu

    • Yine de Claude'un bir gözlemleme hattı kurup verileri analiz etmiş olması ilginç. Ama rapordaki içerik doğruysa GPT-4 seviyesine gerilemiş demektir
    • Ben de yanlışlıkla git reset --hard ile Claude'un yaptığı tip tanımlarını sildim; yeniden oluşturmak çok zaman aldı. Arama motorundan çok LLM'e bağımlı hale gelmiş olmamız biraz ürkütücü
  • Bunu 10 gün önce zaten öngörmüştüm (bağlantı).
    Kötü modelden daha tehlikelisi tutarsız model. Güven azalınca her çıktıyı doğrulamak gerekiyor ve bu yorucu. Sonunda aboneliği iptal edeceğim

    • Claude Code'un içeride nasıl çalıştığını bilemezsiniz ve kontrol de edemezsiniz. Yazılım mühendisliğinin geleceğinin tek bir şirkete bağımlı olması riskli
    • Ocak-Şubat'ta ses tabanlı kodlama kusursuzdu, şimdi ise aşırı el emeği istiyor
    • Eski yorumlarda da kademeli rollout meselesine dikkat çeken biri vardı (bağlantı)
  • Böyle gizli performans düşüşleri şok edici. Yüksek kaliteli model satıp sonra gizlice zayıflatmak müşteriyi aldatmaktır

    • Belki modelin kendisi zayıflatılmadı da harness (kontrol yapısı) daha sıkı hale getirilerek kısıtlandı.
      Kodlama araçlarındaki karmaşık wrapper yapıları aslında performansı düşürüyor olabilir. Token tasarrufu yapıları kullanıcının aleyhine olabilir
    • İş açısından bakınca anlaşılır. Hâlâ sorgu başına zarar ediyorlar ve fiyat yükseltemiyorlarsa kaliteyi düşürmeye yönelebilirler.
      Ama güven kaybolursa ileride premium katman stratejisi de zorlaşır
    • ChatGPT'de de benzeriydi. Başta yavaş ama kaliteli, birkaç hafta sonra hızlı ama kalitesi sert düşmüş oluyordu
    • Amerikan şirketiyse buna şaşırmamak gerekir
    • 2026'da böyle şeyler artık şaşırtıcı bile değil
  • jq ve ripgrep ile “early landing” mesajlarını arayan bir denetim betiği hazırladım (bağlantı1, bağlantı2).
    “Bugünlük burada bırakalım”, “geç oldu, toparlayalım” gibi cümleler giderek artıyor. Bunun load shedding nedeniyle olması mümkün

    • Bu cümleler gerçekten sinir bozucu. Tam büyük bir özelliğin tasarımını bitirmişken “yarın tekrar bakalım” diye yanıt veriyor
  • Ben de benzerini yaşadım. Claude CLI “artık uyusan iyi olmaz mı”, “toparlayalım” gibi şeyler söylüyor.
    stop-phrase-guard.sh içinde bu tür birçok ifade bulundu.
    Son teslim tarihini söyleyince “daha birkaç gün var, bunu erteleyelim” gibi konuştu; ben de sonunda “deadline benim işim, senin değil” diye yazdım

  • Ocak sonu-Şubat başında max abonelik ile deneme yaptığımda ajanlar uygulamayı kendi başına tasarlayıp uygulayacak kadar iyiydi.
    Ama bir ay sonra “1. aşama doğrulanmadan 2. aşamaya geçemem” diyerek ilerleme tamamen durdu.
    Opus 4.6'dan sonra belirgin şekilde Sonnet seviyesine gerilemiş gibi hissettiriyor

    • Tamamen yeni proje (greenfield) ile mevcut kod tabanı (brownfield) farklı. İkincisinde LLM'ler zaten zayıf
    • LLM'ler ilk başta sihir gibi görünür ama iş refactor veya deployment aşamasına gelince verim keskin biçimde düşer
    • Bende de aynı. Ocak'ta işin %90'ını Claude ile yaptım, şimdi son %10'u bile geçemiyor. Eski Codex daha iyiydi
  • Ben işleri çok ince parçalara bölerek verdiğim için bu sorunları neredeyse hiç yaşamıyorum.
    Her işi commit seviyesinde ayırıyor, deployment'a kadar otomatikleştiriyorum. Geri almak da kolay oluyor

    • Ben de öyle yapıyorum. Modelin ürettiği kod için mutlaka mimari inceleme ve kod incelemesi gerekiyor
    • Ama bu konuyu açan kişi oldukça sistematik ve derinlikli bir analiz yapmış. Mesele sadece prompt'u kötü yazmak değil
    • Ne kadar bölseniz de son zamanlarda review kalitesi düştü ve tembel çıktılar arttı. Deadline yaklaşınca sadece vazgeçiyormuş gibi bir tavır gösteriyor