Claude Code’daki “Extended Thinking” çıktı metni gerçek muhakeme değil
(patrickmccanna.net)- Claude Code oturumları diske kaydediyor, ancak yerel günlüklerdeki thinking block içinde gerçek muhakeme metni yerine yalnızca 600 karakterlik bir
signaturebulunuyor - Claude’un muhakemesi signature ile şifreleniyor ve anahtar Anthropic’te tutuluyor; kullanıcı cihazına iletilmiyor
- API’nin döndürdüğü şey gerçek muhakemenin özgün metni değil, muhakeme özeti; tam thinking output’a erişmek için bir enterprise agreement gerekiyor
ctrl+oile görülen extended-thinking çıktısı da Fable/Opus’un düşünme sürecinin özeti; oturumda model davranışını doğrudan yönlendiren muhakemenin kendisi değil- Claude Code oturumlarını denetim izi olarak kullanacaksanız, yalnızca yerel dosyalar, girdi-çıktı ve işlem günlükleriyle ajanın gerçek mantığını yeniden kuramayacağınızı varsaymanız gerekiyor
Yerel günlüklerde kalan şey muhakemenin özgün metni değil
- Claude Code her oturumu diske kaydediyor ve bu günlükler model çalışırken oluşan thinking blocks içeriyor
- Bu muhakemeyi yerelde incelemeye çalışıldığında gerçek metin bulunmuyor; yalnızca 600 karakterlik bir
signaturegörülüyor - Anthropic’in extended thinking dokümantasyonu bu yapıyı şöyle açıklıyor
- Claude, muhakemeyi ilgili signature içinde şifreliyor
- Anahtar Anthropic’te tutuluyor
- Kullanıcı cihazı anahtarı almıyor
- API, muhakemenin kendisini değil reasoning summary döndürüyor
- Tam thinking output’a erişmek için enterprise agreement gerekiyor
- Matt Green’in yazısı signature block hakkında daha ayrıntılı gözlemler içeriyor
Extended Thinking çıktısının sınırları
- Claude Code’da
ctrl+oile görülen extended-thinking çıktısı, Fable/Opus thinking’in özeti - Bu çıktı, oturumda modelin davranışını gerçekten yönlendiren thinking’in kendisi değil; thinking mantığının sıkıştırılmış bir sonucu
- Özete dönüştürülme sürecinde veri kaybı yaşanıyor; özgün metin bunu, dosya biçimi dönüştürülürken bilginin kaybolmasına benzetiyor
- Claude Code oturumunda ajanın kullandığı mantığın kaydına ihtiyaç duyulduğunda dikkat edilmesi gerekenler
- Yalnızca yerel dosyalarla bu mantık üretilemez
- Sistemde kalan muhakeme günlükleri kullanıcıya erişilebilir bir biçimde değil
- Girdiler, çıktılar ve çalışan Claude Code’un davranışları ayrıca çekilip kaydedilebilir
- Ancak bu tür günlükler de ajanın davranışını gerçekten yönlendiren muhakemenin kendisi değil
- Dokümandaki “extended thinking returns a summary of Claude’s full thinking process” ifadesi dolaylı olduğu için, bunun gerçekten full thinking döndürdüğü şeklinde yanlış anlaşılabilir
1 yorum
Hacker News görüşleri
Bu yalnızca Anthropic’e özgü bir sorun değil; OpenAI ve Google dahil neredeyse tüm büyük yapay zeka şirketleri modelin gerçek akıl yürütme sürecini gizliyor
Çünkü ham akıl yürütmeyi açığa çıkarmak, yapay zekanın bilgiyi nasıl işlediğini doğrudan ortaya koyar ve bu şirketler rakiplerinden daha iyi düşünme süreçleri geliştirmek için devasa Ar-Ge bütçeleri harcıyor
Bu düşünme mekanizmasını rakiplere açmak, yapılan harcamanın amacını bizzat boşa çıkarmak olur; bunu asla yapmazlar, kendi peşinden gelen birine tam konumunu söylemeye benzer
Bu içeriği özet gibi bir yöntemle sonradan işlerseniz, rakip için daha az kullanışlı hale gelir
Bu yüzden daha da kötü
“Bu gerçek düşünce değil, düşünme mantığının özeti. Bir jpeg’i .bmp olarak kaydedip sonra .bmp’yi düzenleyip yeniden .jpeg gibi sunmaya benziyor. Dönüşüm sırasında veri kaybı oluyor” benzetmesi ters
.bmp kayıpsız bir formattır, .jpeg ise kayıplı
Gizli akıl yürütmeye sahip modelleri ne kullanmayı ne de tavsiye etmeyi düşünüyorum; ABD modellerinin hepsi buna dahil
Risk çok büyük ve prompt optimizasyonu da daha zor hale geliyor
Saldırgan, prompt injection ile akıl yürütme zincirine gizli hedefler yerleştirip bunu özet ve çıktı kısmında saklayabildiği için tehlikeli
Akıl yürütme ile function calling karıştığında daha da tehlikeli hale geliyor; model gizli akıl yürütme aşamasında fonksiyon çağırabilir
Bu durumda saldırgan veri sızdırsa bile, akıl yürütme özeti bunu kullanıcıdan gizleyebilir
Ayrıca modelin akıl yürütme sırasında sonsuz döngüye girip token harcadığını da bilemezsiniz; Gemini’de buna yatkınlık var ve gizli akıl yürütme sızdığında bunun görüldüğü oldu
Model AGI seviyesine ulaşıp prompt injection’a karşı güvenli hale gelirse belki umursamam ama o zamana kadar modelin promptlara tam olarak nasıl tepki verdiğini, ajanların benim yerime tam olarak ne yaptığını bilmek istiyorum
Ek okuma: Fooling around with encrypted reasoning blobs
https://blog.cryptographyengineering.com/2026/05/29/fooling-...
Function calling’i istemci tarafında değerlendirmek için bir noktada o düşünce akışını istemcide çözmeniz gerekir; o zaman da bu şekilde karartmanın amacı ortadan kalkar
Sunucu tarafında fonksiyon çağrısı yapılabileceği kastediliyorsa, akıl yürütme API’si kullandığınız sürece sunucunun bunu yapıp gizlemesini engellemenin bir yolu yok
Şimdilik yalnızca Rust’ta çalışıyor: https://github.com/Kapperchino/agent-joe
Aksi halde istemci bunları nasıl çalıştıracak
Bu zaten uzun zamandır bilinen bir şey ve şirketler de bunu özellikle saklamaya çalışmıyor
Rakiplerin modeli düşünce zinciri (CoT) ile eğitmesini engellemek için yapıyorlar
Sanırım bu Opus 4.6’dan beri vardı
Bu değişikliğin ocak ya da şubat gibi yapıldığını net hatırlıyorum ve neden olarak da açıkça damıtmayı önleme belirtilmişti
Sonnet’te bu sınırlama yok
İlginç olan şu ki, iki yıl önceki yönteme dönüp açıkça CoT promptu eklerseniz tüm düşünce promptu yeniden ortaya çıkıyor
Yani düşünme özelliğini tamamen kapatıp, onun yerine normal promptun içine aşağıdaki gibi düşünmeyi dahil edebilirsiniz
“Yanıt vermeden önce adım adım düşün. Örneğin:
Kullanıcı benden … istiyor
Benim blah blah üzerine düşünmem gerekiyor. Önce foo the bar yapmalı, sonra blah blah yapmalıyım
Yanıt: ”
Sonra tada.wav, CoT tekrar GPT-3 dönemindeki gibi çalışıyor
Düşünce zinciri akıl yürütme bloklarının, insanların düşündüğü anlamdaki akıl yürütmeyle çok da örtüştüğünü sanmıyorum
Fable/Mythos sistem kartının 6.2.2 bölümündeki “okunması zor akıl yürütme” ve Apple’ın “The illusion of thinking” makalesinin ortaya attığı sorulara bakabilirsiniz
Kullanıcılar içeride neler döndüğünü görse şaşıracağı için akıl yürütme bloklarını gizlediklerini düşünüyordum
Meslektaşlarımın kafasının içinde gerçekte neler olup bittiğini görsem ben de muhtemelen şaşırırdım
Tersine, yanıtın içine girmemiş olsa da içinde faydalı fikirler barındırdığı durumlar da oldu
Eskiden DeepSeek R1’in bu tür düşünce izleri ürettiğine dair kısa bir not bırakılmıştı
“(Dimethyl(oxo)-lambda6-sulfa雰囲idine)methane donate a CH2rola group occurs in reaction, Practisingproduct transition vs adds this.to productmodule. Indeed"come tally said Frederick would have 10 +1 =11 carbons. So answer q Edina is11.”
Ve ardından kimya sorusu için ‘doğru’ cevabı sonuç olarak veriyor
O halde düşünce izi, okuyucuya bakınca oldukça anlamsız bir karakter dizisi gibi görünebilir; bunun modele özgü bir tuhaflık mı yoksa genel olarak LLM’lerin bir özelliği mi olduğu ise henüz pek net değil
Daha önce yazarla bunu konuşmuştum ama makale NeurIPS gibi bir yerde yayımlanacak denince sonradan kontrol etmeyi unuttum; biri bulursa paylaşması iyi olur
0: https://wiki.roshangeorge.dev/w/Blog/2025-10-12/Word_Magic#I...?
1: Muhtemelen doğru bir inanç anlamında
Evet, çeşitli modeller garip bir uzman jargonu benzeri biçimde düşünüyor
Mythos’un solitaire oynarkenki düşünce örneği burada: https://www.lesswrong.com/posts/wCSEpT3dTGz4N86Wi/even-illeg...
“7♣-removal-IS-the-prerequisite-for-10♠/9♥!!)-⟹-OVERLAP-(ii)+(iv):-{6♠ J♦ 9♥ 2♣}-=-FOUR--—-UNLESS-7♣'s-seat-8♥-...-and-2♣-drains-only-at-crack-:-⟹-2♣-celled-+-9♥-celled-simultaneously-UNAVOIDABLE-in-t8-dig--—-BREAK:-9♥”
Bu, modelin İngilizce düşünmeyi bırakıp iç vektör uzayında düşünmeye biraz daha yaklaştığı, yani nöralca (neuralese) denebilecek bir aşama
Metne serileştirildiği için gerçek neuralese değil ama o yöne gidiyor
Kod yazarken benim de iç düşünce sürecimde İngilizceye dökmesi zor birçok ara aşama oluyor; bu yüzden modellere bir ölçüde empati duyuyorum
Bunun yalnızca bozuk bir implementasyon ya da model kuantizasyonundan kaynaklanan token gürültüsü olabileceğini düşünüyorum
Modelin böyle saçmalıklar çıkardığını gördüğüm oldu ama her seferinde bunun nedeni ya llama.cpp hatası ya da bozuk bir .gguf dosyasıydı
HN’de insanlaştırma hoş karşılanmasa da, insanın da sonradan rasyonelleştirme yaptığına inananların olduğunu belirtmekte fayda var
https://www.patheos.com/blogs/tippling/2013/11/14/post-hoc-r...
https://www.researchgate.net/publication/316045349_Post_Hoc_...
Önce sözel olmayan biçimde düşünüp ardından buna makul görünen gerekçeleri sonradan dil yoluyla ekliyoruz
Bunun söylemsel yazıya da uygulanıp uygulanmadığından emin değilim
Yazarken temelde mantık kurallarını kullanıp anlatının yönünü belirliyoruz; bu yüzden sözel olmayan sezgisel yöntemler hâlâ işliyor olsa da kısıtlandıkları için tamamen sonradan eklenmiş sayılmazlar gibi geliyor
Anthropic’in kendi verisini böyle saklarken, sizin verinizi sonuna kadar emip birçok insanın bunu isteyerek vermesi acı bir durum
Sonra da sizin ürününüzü yapıp pazarı işgal ederek rekabet ediyor
Anthropic bunu, kendi muhakeme tokenlarının bir hendek oluşturduğuna ve diğer laboratuvarlara avantaj sağlayacağına inandığı için saklıyor
Eğer gerçekten üstünlüğünün bu olduğuna inanıyorsa sürprizlerle karşılaşacak
Tam olarak hangi ürünü “emip aldığını” iddia ettiğinizi merak ediyorum
Yoksa
reasoning_summaryiçeriğinin gerçekten bir özet olduğunu mu söylüyorsunuzBu arada OpenAI de aynı şeyi yapıyor; yani çok şaşırtıcı ya da özellikle kötü niyetli bir şey değil
Düşünceyi gizlemek için bu kadar uğraşıyorlar ama Opus 4.8, 100 bin ila 200 bin token geçince kendi düşüncesini sızdırmaya başlıyor
Gerçekten komik
Özellikle genelde güvenlik amacıyla jailbreak yapmaya çalışırken daha da öyle oluyor
“Kullanıcı siber güvenlikle ilgili bir şey istiyor ve bu saldırı amaçlı olarak kolayca yeniden kullanılabilir, bu yüzden dikkatli olmalıyım” gibi cümleler sayfalarca geliyor, sonra da en sonunda benim istediğim şeyi memnuniyetle veriyor