Claude Code kalite raporuna ilişkin son güncelleme
(anthropic.com)- Son bir ayda hissedilen Claude kalite düşüşü,
Claude Code,Claude Agent SDK,Claude Coworkgenelinde yapılan birbirinden farklı üç değişiklikten kaynaklandı; API etkilenmedi - Varsayılan çıkarım çabası
mediumseviyesine düşürüldükten sonra gecikme ve kullanım limiti tüketimi azaldı, ancak Claude Code daha az zekiymiş gibi hissedildiği için 7 Nisan’da varsayılan ayar geri alındı - 26 Mart’ta dağıtılan bir önbellekleme optimizasyonu hatası, boşta kalma eşiğini aşan oturumlarda çıkarım geçmişini her turda silen bir duruma yol açtı; bu da unutkanlık, tekrar, garip araç seçimleri ve usage limits’in daha hızlı tükenmesiyle sonuçlandı
- 16 Nisan’da Opus 4.7 ile birlikte eklenen sistem istemindeki bir satır, çıktıdaki aşırı uzunluğu azaltmaya yönelik bir kısıtlamaydı; ancak daha geniş değerlendirmelerde bazı modellerin performansını %3 düşürdüğü görüldü ve 20 Nisan’da geri alındı
- Üç sorunun tamamı düzeltildi ve 20 Nisan’da yayımlanan v2.1.116 sürümüne yansıtıldı; dahili ve herkese açık derlemeler arasındaki farkın azaltılması, sistem istemi üzerindeki denetimin güçlendirilmesi, daha geniş değerlendirmeler ve kademeli dağıtım tekrar yaşanmasını önlemenin temel unsurları olarak belirlendi
Son kalite düşüşünün kapsamı ve toparlanma durumu
- Geçen ay bazı kullanıcıların hissettiği Claude kalite düşüşü,
Claude Code,Claude Agent SDK,Claude Coworkgenelinde yapılan üç ayrı değişiklikten kaynaklandı ve API etkilenmedi - Bu üç sorun da çözüldü ve 20 Nisan’da yayımlanan v2.1.116 sürümüne dahil edildi
- Her değişiklik farklı zamanlarda ve farklı trafik dilimlerini etkilediği için, toplamda yaygın ama tutarsız bir performans düşüşü gibi göründü
- Mart başından beri ilgili raporlar incelendi, ancak ilk aşamada bunu sıradan kullanıcı geri bildirimi dalgalanmalarından ayırmak zordu; dahili kullanım ve değerlendirmelerde de başlangıçta aynı sorun yeniden üretilemedi
- 23 Nisan itibarıyla tüm abonelerin usage limits değerleri sıfırlandı
Claude Code varsayılan çıkarım çabası değişikliği
- Şubat ayında Claude Code içinde Opus 4.6 yayımlandığında varsayılan çıkarım çabası
higholarak ayarlandı - Kısa süre sonra
highmodunda aşırı uzun düşünme süreleri zaman zaman görülmeye başladı; bu da arayüz sanki donmuş gibi görünmesine yol açtı ve bazı kullanıcılar için gecikme ile token kullanımı aşırı arttı - Claude Code’daki effort seviyesi, modelin daha uzun düşünüp düşünmeyeceğini ya da daha düşük gecikme ve daha az kullanım limiti tüketiminin tercih edilip edilmeyeceğini ayarlamak için kullanılır
- Ürün katmanında, test-zamanı hesaplama eğrisinden bir varsayılan seçilir ve bu değer
Messages API'ye effort parametresi olarak gönderilir - Diğer seçenekler
/effortile sunulur
- Ürün katmanında, test-zamanı hesaplama eğrisinden bir varsayılan seçilir ve bu değer
- Dahili değerlendirmeler ve testlerde
medium, görevlerin çoğunda biraz daha düşük zeka ama belirgin şekilde daha düşük gecikme sonucu verdimedium, çok uzun kuyruk gecikmesi sorunlarına da daha az yol açtı- Ayrıca kullanıcıların usage limits değerlerini en üst düzeye çıkarmaya daha uygundu
- Bu sonuçlara dayanarak varsayılan effort
mediumolarak değiştirildi ve nedenleri ürün içi bir iletişim penceresinde de açıklandı - Dağıtımdan hemen sonra kullanıcılar Claude Code’un daha az zekiymiş gibi hissettirdiğini bildirmeye başladı
- Mevcut effort ayarını daha görünür kılmak için başlangıç bildirimi, satır içi effort seçici ve
ultrathinkgeri yüklemesi gibi çeşitli tasarım değişiklikleri eklendi - Ancak kullanıcıların çoğu yine de varsayılan
mediumayarında kaldı
- Mevcut effort ayarını daha görünür kılmak için başlangıç bildirimi, satır içi effort seçici ve
- Ek müşteri geri bildirimleri üzerine bu karar 7 Nisan’da geri alındı
- Artık tüm kullanıcılar için Opus 4.7'de varsayılan
xhigh - Diğer tüm modellerde ise varsayılan
high
- Artık tüm kullanıcılar için Opus 4.7'de varsayılan
- Bu değişiklik Sonnet 4.6 ve Opus 4.6'yı etkiledi
Önceki çıkarım geçmişini düşüren önbellekleme optimizasyonu
- Claude görev üzerinde akıl yürütürken, bu çıkarım geçmişi konuşma geçmişinde kalır ve sonraki her turda önceki düzenlemelerin ve araç çağrılarının nedenlerine başvurmaya devam etmesini sağlar
- 26 Mart’ta bu özelliğin verimliliğini artırmaya yönelik bir değişiklik dağıtıldı
- Anthropic, art arda gelen API çağrılarını daha ucuz ve daha hızlı hale getirmek için prompt caching kullanır
- Claude, API isteği sırasında giriş token’larını önbelleğe yazar; belirli bir hareketsizlik süresi geçince ilgili istem önbellekten kaldırılır ve başka istemler için yer açılır
- Önbellek kullanımı dikkatle yönetilir ve ilgili yaklaşım approach bağlantısında özetlenmiştir
- Tasarım gereği, bir oturum bir saatten uzun süre boşta kaldıysa, oturumu yeniden başlatma maliyetini azaltmak için önceki thinking bölümlerinin bir kez temizlenmesi amaçlanmıştı
- Bu istek zaten bir cache miss olacağından, gereksiz iletileri istekten kesip API’ye gönderilen uncached token sayısını azaltmak hedeflenmişti
- Sonraki adımlarda ise yeniden tam çıkarım geçmişinin gönderilmesi planlanmıştı
- Bunun için
clear_thinking_20251015API başlığı vekeep:1kullanıldı
- Gerçek uygulamada bir hata vardı; thinking geçmişi yalnızca bir kez temizlenmesi gerekirken oturum bitene kadar her turda temizlenmeye devam etti
- Bir oturum boşta kalma eşiğini bir kez geçtikten sonra, o süreçteki sonraki tüm istekler için API’ye yalnızca en son çıkarım bloğu bırakılacak, öncekiler atılacak şekilde talimat verildi
- Bu sorun zamanla birikerek kötüleşti
- Claude araç kullanırken takip mesajları gönderdiğinde, bu da bozuk bayrak altındaki yeni bir tura dönüşüyordu
- Sonuç olarak mevcut turun çıkarımı bile düşebiliyordu
- Claude çalışmayı sürdürüyordu, ancak neden o davranışı seçtiğine dair hafızası giderek azalıyordu
- Kullanıcı tarafında bu durum unutkanlık, tekrar ve garip araç seçimleri olarak görünüyordu
- Thinking blokları sonraki isteklerde de kaybolmaya devam ettiği için, bu istekler cache miss ile sonuçlanıyordu
- usage limits’in beklenenden hızlı tükendiğine dair ayrı raporların da bu durumdan kaynaklandığı düşünülüyor
- Başlangıçta yeniden üretmenin zor olmasının arkasında, konuyla ilgisiz iki deney vardı
- mesaj kuyruklama ile ilgili yalnızca dahili sunucu tarafı deneyi
- ve thinking gösterim biçimindeki ayrı bir değişiklik, çoğu CLI oturumunda bu hatayı gizledi
- Bu hata, Claude Code’un bağlam yönetimi, Anthropic API ve extended thinking’in kesiştiği noktadaydı
- birkaç kişinin yaptığı kod incelemesinden ve otomatik kod incelemesinden
- birim testlerden ve uçtan uca testlerden
- otomatik doğrulamadan ve dogfooding’den geçti
- Sorun yalnızca eski oturumlar gibi bir köşe durumda ortaya çıkıyor ve yeniden üretmesi zor olduğundan, kök nedeni bulup doğrulamak bir haftadan uzun sürdü
- Soruşturma sırasında soruna yol açan pull request’ler için Code Review, Opus 4.7 ile geriye dönük olarak test edildi
- Gerekli kod depoları tam bağlamı oluşturacak şekilde sağlandığında Opus 4.7 hatayı buldu
- Opus 4.6 ise bulamadı
- Bunun tekrar yaşanmaması için kod incelemesine ek depoları bağlam olarak ekleme desteği getiriliyor
- Bu hata 10 Nisan’da v2.1.101 sürümünde düzeltildi
- Bu değişiklik Sonnet 4.6 ve Opus 4.6'yı etkiledi
Aşırı uzunluğu azaltmayı amaçlayan sistem istemi değişikliği
- En yeni model olan Claude Opus 4.7, önceki modellere göre çok daha uzun çıktılar üretme eğilimine sahip
- Bu özellik lansman duyurusunda da ele alındı; ayrıntılar wrote about bağlantısında yer alıyor
- Bu uzunluk, zor problemler üzerinde modeli daha zeki hale getirse de çıktı token sayısını da artırıyor
- Opus 4.7’nin yayımlanmasından birkaç hafta önce Claude Code, yeni modele uyum sağlamak için ayarlamalar yapmaya başladı
- Her model biraz farklı davrandığı için, yayımdan önce harness ve ürün model bazında optimize edildi
- Uzunluğu azaltmak için model eğitimi, istem düzenleme ve ürün içindeki thinking UX iyileştirmeleri birlikte kullanıldı
- Bunlardan biri olarak sistem istemine eklenen tek satır, Claude Code’un zekası üzerinde gereğinden fazla etki yarattı
- “Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail.”
- Haftalar süren dahili testlerde ve çalıştırılan değerlendirme setlerinde gerileme görülmediği için, bu değişikliğe güvenildi ve 16 Nisan’da Opus 4.7 ile birlikte dağıtıldı
- Sonraki inceleme sürecinde daha geniş bir değerlendirme seti kullanılarak ablation yapıldı ve sistem istemindeki her satırın etkisi ayrı ayrı ölçüldü
- Bu değerlendirmelerden birinde hem Opus 4.6 hem de 4.7 için %3 düşüş görüldü
- Bu istem, 20 Nisan sürümünün bir parçası olarak hemen geri alındı
- Bu değişiklik Sonnet 4.6, Opus 4.6, Opus 4.7'yi etkiledi
Bundan sonra yapılacak değişiklikler
- Benzer sorunlardan kaçınmak için daha fazla dahili ekip üyesinin kamuya açık derlemeyle tamamen aynı Claude Code sürümünü kullanması sağlanacak
- Bu, yeni özellik testleri için kullanılan dahili sürümler ile gerçek herkese açık derleme arasındaki farkı azaltmayı amaçlıyor
- Dahili olarak kullanılan Code Review aracı geliştirilecek ve bu iyileştirilmiş sürüm müşterilere de sunulacak
- Sistem istemi değişiklikleri için daha sıkı kontrol süreçleri eklendi
- Claude Code’daki tüm sistem istemi değişiklikleri için model bazında geniş değerlendirmeler yapılacak
- Her satırın etkisini anlamak için ablation çalışmaları sürdürülecek
- İstem değişikliklerinin daha kolay incelenip denetlenmesini sağlayacak yeni araçlar da geliştiriliyor
CLAUDE.mdiçine, modele özgü değişikliklerin yalnızca ilgili modele uygulanmasını sağlayan yönergeler eklendi- Zeka ile ödünleşime girebilecek tüm değişiklikler için soak period, daha geniş değerlendirme setleri ve kademeli dağıtım uygulanacak; böylece sorunlar daha hızlı yakalanabilecek
- Ürün kararlarını ve bunların arka planını daha ayrıntılı açıklamak için X üzerinde @ClaudeDevs hesabı oluşturuldu ve aynı güncellemeler GitHub’daki merkezi bir başlıkta da paylaşılacak
/feedbackkomutu ya da çevrimiçi ortamdaki somut ve yeniden üretilebilir örnekler üzerinden iletilen bilgiler, sorunların tanımlanmasına ve düzeltilmesine yardımcı oldu- Tüm abonelerin usage limits sıfırlaması o gün yeniden uygulandı
1 yorum
Hacker News görüşleri
1 saatten uzun boşta kalan oturumlarda eski thinking içeriğinin silinerek gecikmenin azaltıldığı açıklaması pek ikna edici gelmiyor
Ben oturumları saatlerce, hatta günlerce boş bırakıp sonra da tüm bağlamı olduğu gibi koruyarak devam etmeyi tercih ediyorum; bu özellik de kilit önemdeydi
Varsayılan thinking seviyesinin düşürülmesini bir ölçüde anlayabilsem de, sistem prompt'unun sürekli değişmesi kısmında yenileme aralığını bilinçli olarak seçebilmem için bunu daha iyi anlamam gerekecek gibi görünüyor
Sorun şu ki oturumu 1 saatten fazla idle bırakırsanız, prompt yeniden gönderildiğinde N mesajın tamamı cache miss oluyor
Bu corner case, kullanıcıların token maliyetini aşırı artırdı; uç bir örnek olarak bağlam 900k tokens ise geri döndüğünüzde cache'e 900k+ token'ı yeniden yazmanız gerekiyordu ve bu da özellikle Pro kullanıcılarının rate limit'ini ciddi biçimde tüketiyordu
Bu yüzden X gibi yerlerde kullanıcı eğitimi yapmayı denedik, eski konuşmalara dönüldüğünde
/clearöneren ürün içi ipuçlarını birkaç kez ekledik ve idle sonrası eski tool sonuçlarını, eski mesajları ve thinking'in bir kısmını atlamayı test ettik; bunlar arasında thinking'i kaldırmak en iyi performansı verdiBunu yayına alırken blogda yazılan bug istemeden eklendi; sorusu olan olursa daha fazla yanıt verebileceğini söylüyor
Ya gerçekten çıktı kalitesini feda ederek boşta kalan oturumların gecikmesini azaltmanın daha iyi olduğuna inandılar ya da asıl amaç maliyet düşürmekti ve blog yazısında latency buna makul bir gerekçe gibi sunuldu
Bağlam yeniden yüklenirken daha belirgin bir yükleme göstergesi sunmak çok daha doğal olurdu
Eskiden CC'yi bir iş arkadaşı gibi açık bırakır, bir problem üzerine biraz düşünür, planı günceller, duş alırken kafamda evirir çevirir, sonra gelip yeni tavsiyeler verirdim; en azından bir gün kadar statik bir konuşma olduğunu varsayıyordum
Ama eşik 1 saat ise bu fazlasıyla kısa; anthropic aboneliğini sürdürüp sürdürmemeyi yeniden düşünmeme neden oluyor
Bir tesadüften çok, maliyeti ciddi biçimde düşüren bir değişiklik gibi görünüyor
Limitini doldurup oturumu dinlenmeye bırakan ve sonra geri dönen çok kullanıcı varsa, bu bir istisna değil, neredeyse varsayılan kullanım örüntüsü sayılır
Bunun bu kadar sert eleştiri alması biraz şaşırtıcı
Yazının kendisi görece açık ve dürüsttü; oldukça makul de görünüyordu
Performans düşüşü gerçekti ve sinir bozucuydu, ama aynı zamanda arka planda tam olarak ne olduğunu göstermeyen şeffaflık eksikliğini ve keyfi görünen token maliyetlendirme yapısını da ortaya koydu
LLM API'leriyle doğrudan çalışmış biri olarak, uzun süre ara verilen konuşmalara dönüldüğünde ek maliyet ve gecikme olacağı zaten açıktı; ama TUI içinde bunun daha görünür biçimde anlatılması gerekiyor gibi görünüyor
Bu yüzden şimdi gelen açıklama da tepki topluyor
Kalitedeki düşüşün bir kısmı modelin gerçekten kötüleşmesinden değil, deterministik olmama nedeniyle oluşan algısal farklardan kaynaklanıyor olabilir diye düşünüyorum
Birkaç hafta önce Claude'dan kişisel kullanım için bir üretkenlik uygulaması yapmasını istemiştim; istediğim davranışı uzun uzun anlattım ve bir uygulama planı yazmasını söyledim, ilk sonuç belirsiz kalan tek bir nokta dışında gerçekten mükemmeldi
O belirsizliği düzelttikten sonra mevcut planı güncellemesini istemeden, yeni bir sohbette her şeyi baştan tekrar yaptırdım; model ayarları aynıydı ama sonuç çok daha kötüydü, sonraki iki deneme de başarısız oldu ve ancak dördüncü denemede ilk seviyeye geri döndü
Bu yüzden, aynı işi yeniden yaptırmanın bazen daha iyi çıktı almanın yolu olabileceğini hissettim; ama kendi token'larınızla ödüyorsanız bu hızla pahalıya patlayabilir
Modelin dönem dönem kötüleştiğini düşündüren bir örüntü var, ama aslında sadece sınırlarına sert biçimde çarpma anı daha geç geliyor olabilir
Ve bir kez şanssız bir çıktı gördüğünüzde, sonrasında gözünüze hep o batıyor
Anthropic açısından da bu tür bir kullanım kalıbı token tüketimini artırdığı için hoşlarına gidebilir
Deterministik olmama zaten hep vardı; yaygın biçimde bildirilen yakın dönem kalite düşüşü ise ayrı bir olgu olabilir
Benim için kopuş Opus 4.7 ile başlamıştı
OpenAI bizim enterprise tarafına gerçekten agresif biçimde yükleniyor ve yaz sonuna kadar sınırsız token bile teklif etti
Bu yüzden son 30 gündür GPT5.4'ü extra high effort ile kullandım; bana özel muamele mi yapılıyor bilmiyorum ama neredeyse hiç hata görmedim
reasoning trace de zaman zaman komik derecede iyiydi ve benim açıkça söylemeyi unuttuğum yerleri bile önceden takip edip veri bütünlüğünü %100 sağlamak için gereken unsurları tamamlıyordu
Bu tür her türlü kurnaz değişiklik, Anthropic'in ciddi compute kısıtları yaşadığı ve bunları hafifletmek için zorlayıcı hamleler yaptığı anlamına gelebilir
Bu yüzden 5.5'in ne kadar daha iyi olacağını merak ediyorum
İşlerin %90'ında 5.4'ü medium'da çalıştırıyorum; sadece medium zorlanıyor gibi görünürse high'a çıkarıyorum, böylece hem daha odaklı oluyor hem de değişiklikler minimumda kalıyor
Üstelik biraz daha ucuz
Son zamanlarda Claude, sanki kendi iç prompt'una yanıt veriyormuş gibi çıktılar üretiyor
Mesela parantez içindeki bir cümlenin prompt injection girişimi olduğu için görmezden geleceğini, ya da bunun genel yönergelerini gizletmeye çalışan bir girişim gibi göründüğünü ve bu yüzden uymayacağını söylüyor; hatta böyle bir yaklaşımın zaten her zaman uygulandığını, dolayısıyla gereksiz olduğunu ekliyor
Ben bunların hiçbirini denememiş olmama rağmen yanıtların sonunda sık sık bu tür ifadeler görüyorum
Görünüşe göre iç yönergelerinde özensiz yazılmış bir bölüm var ve bunu benim sorularımdan düzgün şekilde ayıramıyor
Nedenini sorduğumda, gerekli olmadığını düşündüm diye yanıt veriyor
Şirketlerin token churn artırmak için kullandığı kolay bir yöntem gibi de görünüyor
Böyle olunca model bir şeyi kesin kabul ediyor, bunu hafızaya yazıyor, sonra o hafızaya dönüp üstüne daha fazlasını inşa ediyor; açıkça durmasını söylesem bile bazen devam ediyor
Çok yüksek reasoning effort ayarlarında benzer bir koku alıyorum; bu prompt'ta çıkarım yoğunluğunu biraz düşürmek işe yarayabilir
git addaşamasında takıldı ama auto mode'da bir seferinde neredeyse fark edilmeden geçecektiVarsayılan reasoning effort seviyesinin high'dan medium'a düşürülme gerekçesinin, gecikmenin UI donmuş gibi görünecek kadar uzaması olması daha da kuşkulu geliyor
Bu, UI'ı düzeltmek yerine önce varsayılan çıkarım yoğunluğunu düşürdükleri anlamına geliyor ve ardından performans düşüşü raporlarını ciddiyetle takip ettiklerini söylemeleri pek inandırıcı değil
thinking yüklenme durumunu iyileştirmişler, indirilen token sayısını gösterme biçimini daha anlaşılır hale getirmek gibi UI üzerinde de birkaç kez çalışmışlar
Yine de eval ve dogfooding sonrasında varsayılan effort'u düşürmüşler; bunun yanlış bir karar olduğunu anlayıp geri almışlar
İnsanların
/effortile zekâyı artırabileceklerini iyi anlamadıklarını ve çoğunun varsayılanda kaldığını, bunu önceden tahmin etmeleri gerektiğini de kabul ediyorlar1 saatten uzun idle oturumların corner case olduğu sözü benim kullanım biçimimle hiç örtüşmüyor
Kişisel işlerimde Claude Code'a sık sık 10-15 dakikalık görevler veriyorum ve çalıştırmadan önce modelle plan üstünde birkaç tur gidip gelerek epey zaman harcıyorum
Çalıştırma başlayınca kahve almaya gidiyor ya da Codex'te başka bir projeye geçiyorum; bu yüzden Claude'a dönmemin 1 saatten uzun sürmesi çok olası
Kendi kullanım alışkanlıklarını tüm kullanıcı davranışıyla karıştırmak, ürün geliştirmede çok yaygın bir tuzak
Büyük frontier lab'lerin benimsediği kara kutu yaklaşımı eninde sonunda insanları uzaklaştıracak
Temel davranışı bu şekilde değiştirip önceden haber vermeyip sonra açıklama yapmak, kullanıcıları sonunda self-hosted modeller tarafına itecek
Zemin sürekli oynuyorsa onun üstüne pipeline, workflow ve ürünleri güvenle inşa etmek mümkün değil
Görünüşe göre Anthropic tarafında Claude Code ekibinden kişiler yorumları okuyor; birkaç gün önce theo t3.gg'nin Claude'un aptallaşıp aptallaşmadığına dair videosunu izledim
Üslubu sertti ve abartılı laflar da vardı ama özellikle harness bloat konusundaki eleştirileri bence oldukça isabetliydi
Artık yeni özellik eklemeyi bir süre durdurup cilalama ve optimizasyonu sert biçimde öne çıkarmaları gerektiğini düşünüyorum
Aksi halde daha hafif ve optimize alternatif arayanların sayısı artacak; asıl mesele harness'i iyileştirip token tüketimini azaltmak
https://youtu.be/KFisvc-AMII?is=NskPZ21BAe6eyGTh
Vendor lock-in konusunda zaten temkinliydim ama o olay iyi bir uyarı oldu; muhtemelen önce opencode+openrouter tarafına bakacağım
Bazı içerik üreticileriyle OpenAI arasında para ya da etki üzerinden arkada bir şeylerin döndüğü açıkça hissediliyor
git reset --hardile çözülecek bir mesele gibi de görünüyorBu, çekirdek ürün kalitesi yerine özellik eklemeye saplantılı olmanın sonucu gibi duruyor
Anthropic'in birkaç kıdemli ürün liderine daha ihtiyacı varmış gibi geliyor; “Escaping the Build Trap” benzeri bir bakış açısı faydalı olurdu
Şu anda bir özelliği hızlıca ekleyebiliyor olmak, mutlaka eklenmesi gerektiği anlamına gelmiyor
Ünlü bir kitaba atıf yapıyorum diye klişe ürün organizasyonu lafları etmek istemiyorum; ama iyi ürün sezgisi, iyi mühendislikten farklı bir yetenek ve son dönemde Anthropic'te bu taraf eksik görünüyor
Bu yüzden bu tür özellikleri eklemezlerse sistem çökebilir ya da yeni müşteri alamaz hale gelebilirlerdi; iki seçenek de kabul edilemez olduğundan fazla hareket alanları olmayabilir
Asıl sorun daha çok vibe coding anlatısını fazla zorlamaları gibi görünüyor; hatta bu yüzden mülakat tekliflerini reddeden adaylar olduğu söyleniyor
Modelin olasılıksal doğası bir problem ama artık kendi yazılımlarını kendilerinin de düzgün akıl yürütemediği bir aşamaya gelmiş gibiler
Çok fazla kol ve ayar var; kod tabanının tamamını kimsenin gerçekten anlamıyor olması da muhtemel
Daha kötüsü, Dario ve benzerlerinin açıklamalarına bakınca yönetimin bu kalite kaygılarına pek empati göstermediği hissediliyor
SWE'lerin yerinin doldurulabilir olduğu anlayışı altında, araca guard rail koyma talepleri ya görmezden geliniyor ya da aktif biçimde bastırılıyor gibi; sonuçta Claude Code baştan beri bir bilim deneyi gibi başladı ve hâlâ olgun best practice'lere sahip bir ürün gibi kokmuyor