Claude Code’daki “Extended Thinking” çıktı metni gerçek muhakeme değil

(patrickmccanna.net)

1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş

Claude Code oturumları diske kaydediyor, ancak yerel günlüklerdeki thinking block içinde gerçek muhakeme metni yerine yalnızca 600 karakterlik bir signature bulunuyor
Claude’un muhakemesi signature ile şifreleniyor ve anahtar Anthropic’te tutuluyor; kullanıcı cihazına iletilmiyor
API’nin döndürdüğü şey gerçek muhakemenin özgün metni değil, muhakeme özeti; tam thinking output’a erişmek için bir enterprise agreement gerekiyor
ctrl+o ile görülen extended-thinking çıktısı da Fable/Opus’un düşünme sürecinin özeti; oturumda model davranışını doğrudan yönlendiren muhakemenin kendisi değil
Claude Code oturumlarını denetim izi olarak kullanacaksanız, yalnızca yerel dosyalar, girdi-çıktı ve işlem günlükleriyle ajanın gerçek mantığını yeniden kuramayacağınızı varsaymanız gerekiyor

Yerel günlüklerde kalan şey muhakemenin özgün metni değil

Claude Code her oturumu diske kaydediyor ve bu günlükler model çalışırken oluşan thinking blocks içeriyor
Bu muhakemeyi yerelde incelemeye çalışıldığında gerçek metin bulunmuyor; yalnızca 600 karakterlik bir signature görülüyor
Anthropic’in extended thinking dokümantasyonu bu yapıyı şöyle açıklıyor
- Claude, muhakemeyi ilgili signature içinde şifreliyor
- Anahtar Anthropic’te tutuluyor
- Kullanıcı cihazı anahtarı almıyor
- API, muhakemenin kendisini değil reasoning summary döndürüyor
- Tam thinking output’a erişmek için enterprise agreement gerekiyor
Matt Green’in yazısı signature block hakkında daha ayrıntılı gözlemler içeriyor

Extended Thinking çıktısının sınırları

Claude Code’da ctrl+o ile görülen extended-thinking çıktısı, Fable/Opus thinking’in özeti
Bu çıktı, oturumda modelin davranışını gerçekten yönlendiren thinking’in kendisi değil; thinking mantığının sıkıştırılmış bir sonucu
Özete dönüştürülme sürecinde veri kaybı yaşanıyor; özgün metin bunu, dosya biçimi dönüştürülürken bilginin kaybolmasına benzetiyor
Claude Code oturumunda ajanın kullandığı mantığın kaydına ihtiyaç duyulduğunda dikkat edilmesi gerekenler
- Yalnızca yerel dosyalarla bu mantık üretilemez
- Sistemde kalan muhakeme günlükleri kullanıcıya erişilebilir bir biçimde değil
- Girdiler, çıktılar ve çalışan Claude Code’un davranışları ayrıca çekilip kaydedilebilir
- Ancak bu tür günlükler de ajanın davranışını gerçekten yönlendiren muhakemenin kendisi değil
Dokümandaki “extended thinking returns a summary of Claude’s full thinking process” ifadesi dolaylı olduğu için, bunun gerçekten full thinking döndürdüğü şeklinde yanlış anlaşılabilir

1 yorum

GN⁺ 4 시간 전

Hacker News görüşleri

Bu yalnızca Anthropic’e özgü bir sorun değil; OpenAI ve Google dahil neredeyse tüm büyük yapay zeka şirketleri modelin gerçek akıl yürütme sürecini gizliyor
Çünkü ham akıl yürütmeyi açığa çıkarmak, yapay zekanın bilgiyi nasıl işlediğini doğrudan ortaya koyar ve bu şirketler rakiplerinden daha iyi düşünme süreçleri geliştirmek için devasa Ar-Ge bütçeleri harcıyor
Bu düşünme mekanizmasını rakiplere açmak, yapılan harcamanın amacını bizzat boşa çıkarmak olur; bunu asla yapmazlar, kendi peşinden gelen birine tam konumunu söylemeye benzer
- Bu, dünyadaki bilgiyi makinenin okuyabileceği bir formatta sunmaya da benziyor; böylece yapay zeka şirketleri bunu izin ya da karşılık olmadan model ağırlıklarına dönüştürebiliyor
- Daha da önemlisi, modelin akıl yürütmesini açarsanız rakipler bunu eğitimde kullanıp sonucu kopyalayabilir
  Bu içeriği özet gibi bir yöntemle sonradan işlerseniz, rakip için daha az kullanışlı hale gelir
- Asıl nedenin, “akıl yürütme”nin hizalanmış model çıktısı ile pek uyumlu olmaması olduğunu düşünüyordum; bu yüzden akıl yürütme sırasında hizalama kaldırılıyor ve “hizalanmamış” model çıktısı görünmesin diye saklanıyor
- Google’dan kişisel verileri dışa aktardığınızda model yanıtlarının tamamını gizleyip yalnızca kullanıcı mesajlarını bırakıyor
  Bu yüzden daha da kötü
- Ancak karmaşık sorunlarda çözüme giden sürecin de incelenebilir olması gerekir; bu yaklaşım ürünü daha kötü hale getiriyor
“Bu gerçek düşünce değil, düşünme mantığının özeti. Bir jpeg’i .bmp olarak kaydedip sonra .bmp’yi düzenleyip yeniden .jpeg gibi sunmaya benziyor. Dönüşüm sırasında veri kaybı oluyor” benzetmesi ters
.bmp kayıpsız bir formattır, .jpeg ise kayıplı
Gizli akıl yürütmeye sahip modelleri ne kullanmayı ne de tavsiye etmeyi düşünüyorum; ABD modellerinin hepsi buna dahil
Risk çok büyük ve prompt optimizasyonu da daha zor hale geliyor
Saldırgan, prompt injection ile akıl yürütme zincirine gizli hedefler yerleştirip bunu özet ve çıktı kısmında saklayabildiği için tehlikeli
Akıl yürütme ile function calling karıştığında daha da tehlikeli hale geliyor; model gizli akıl yürütme aşamasında fonksiyon çağırabilir
Bu durumda saldırgan veri sızdırsa bile, akıl yürütme özeti bunu kullanıcıdan gizleyebilir
Ayrıca modelin akıl yürütme sırasında sonsuz döngüye girip token harcadığını da bilemezsiniz; Gemini’de buna yatkınlık var ve gizli akıl yürütme sızdığında bunun görüldüğü oldu
Model AGI seviyesine ulaşıp prompt injection’a karşı güvenli hale gelirse belki umursamam ama o zamana kadar modelin promptlara tam olarak nasıl tepki verdiğini, ajanların benim yerime tam olarak ne yaptığını bilmek istiyorum
Ek okuma: Fooling around with encrypted reasoning blobs
https://blog.cryptographyengineering.com/2026/05/29/fooling-...
- Karartılmış akıl yürütme blokları içinde araç çağrıları gerçekleşebileceğini sanmıyorum
  Function calling’i istemci tarafında değerlendirmek için bir noktada o düşünce akışını istemcide çözmeniz gerekir; o zaman da bu şekilde karartmanın amacı ortadan kalkar
  Sunucu tarafında fonksiyon çağrısı yapılabileceği kastediliyorsa, akıl yürütme API’si kullandığınız sürece sunucunun bunu yapıp gizlemesini engellemenin bir yolu yok
- Akıl yürütme zincirinin ele geçirilmesini potansiyel bir saldırı yolu olarak düşünmüştüm ama büyük sağlayıcıların turlar arasındaki tüm akıl yürütme tokenlarını attığını anlıyorum; bu yüzden ABD modellerinde kanıtlanmış bir uygulama görmedim
- Yaptığım bu ajan shell’de çalışamıyor, yalnızca proje içindeki dosyaları düzenleyebiliyor
  Şimdilik yalnızca Rust’ta çalışıyor: https://github.com/Kapperchino/agent-joe
- Akıl yürütme gizlense bile araç çağrıları gizlenmez
  Aksi halde istemci bunları nasıl çalıştıracak
- Düşünce blokları araç çağrısı yapamıyorsa, veri sızdırma riskini çok net göremiyorum
Bu zaten uzun zamandır bilinen bir şey ve şirketler de bunu özellikle saklamaya çalışmıyor
Rakiplerin modeli düşünce zinciri (CoT) ile eğitmesini engellemek için yapıyorlar
- Sanırım bu Opus 4.6’dan beri vardı
  Bu değişikliğin ocak ya da şubat gibi yapıldığını net hatırlıyorum ve neden olarak da açıkça damıtmayı önleme belirtilmişti
  Sonnet’te bu sınırlama yok
  İlginç olan şu ki, iki yıl önceki yönteme dönüp açıkça CoT promptu eklerseniz tüm düşünce promptu yeniden ortaya çıkıyor
  Yani düşünme özelliğini tamamen kapatıp, onun yerine normal promptun içine aşağıdaki gibi düşünmeyi dahil edebilirsiniz
  “Yanıt vermeden önce adım adım düşün. Örneğin:
  
  Kullanıcı benden … istiyor
  Benim blah blah üzerine düşünmem gerekiyor. Önce foo the bar yapmalı, sonra blah blah yapmalıyım
  
  Yanıt: ”
  
  Sonra tada.wav, CoT tekrar GPT-3 dönemindeki gibi çalışıyor
Düşünce zinciri akıl yürütme bloklarının, insanların düşündüğü anlamdaki akıl yürütmeyle çok da örtüştüğünü sanmıyorum
Fable/Mythos sistem kartının 6.2.2 bölümündeki “okunması zor akıl yürütme” ve Apple’ın “The illusion of thinking” makalesinin ortaya attığı sorulara bakabilirsiniz
Kullanıcılar içeride neler döndüğünü görse şaşıracağı için akıl yürütme bloklarını gizlediklerini düşünüyordum
Meslektaşlarımın kafasının içinde gerçekte neler olup bittiğini görsem ben de muhtemelen şaşırırdım
- Bu yazının asıl noktası, LLM’lerin “akıl yürütme” aşamasının insanların düşündüğü akıl yürütmeyle aynı olmaması değil; Anthropic’in Claude’un akıl yürütme çıktısını kasten gizleyerek model damıtmayı zorlaştırması
- DeepSeek ya da GLM’nin düşünce zincirini okurken “ne düşünüyor bu böyle” diye sayısız kez haykırdım, ama sonunda doğru sonuca gittiği oldu
  Tersine, yanıtın içine girmemiş olsa da içinde faydalı fikirler barındırdığı durumlar da oldu
Eskiden DeepSeek R1’in bu tür düşünce izleri ürettiğine dair kısa bir not bırakılmıştı
“(Dimethyl(oxo)-lambda6-sulfa雰囲idine)methane donate a CH2rola group occurs in reaction, Practisingproduct transition vs adds this.to productmodule. Indeed"come tally said Frederick would have 10 +1 =11 carbons. So answer q Edina is11.”
Ve ardından kimya sorusu için ‘doğru’ cevabı sonuç olarak veriyor
O halde düşünce izi, okuyucuya bakınca oldukça anlamsız bir karakter dizisi gibi görünebilir; bunun modele özgü bir tuhaflık mı yoksa genel olarak LLM’lerin bir özelliği mi olduğu ise henüz pek net değil
Daha önce yazarla bunu konuşmuştum ama makale NeurIPS gibi bir yerde yayımlanacak denince sonradan kontrol etmeyi unuttum; biri bulursa paylaşması iyi olur
0: https://wiki.roshangeorge.dev/w/Blog/2025-10-12/Word_Magic#I...?
1: Muhtemelen doğru bir inanç anlamında
- Evet, çeşitli modeller garip bir uzman jargonu benzeri biçimde düşünüyor
  Mythos’un solitaire oynarkenki düşünce örneği burada: https://www.lesswrong.com/posts/wCSEpT3dTGz4N86Wi/even-illeg...
  
  “7♣-removal-IS-the-prerequisite-for-10♠/9♥!!)-⟹-OVERLAP-(ii)+(iv):-{6♠ J♦ 9♥ 2♣}-=-FOUR--—-UNLESS-7♣'s-seat-8♥-...-and-2♣-drains-only-at-crack-:-⟹-2♣-celled-+-9♥-celled-simultaneously-UNAVOIDABLE-in-t8-dig--—-BREAK:-9♥”
  
  Bu, modelin İngilizce düşünmeyi bırakıp iç vektör uzayında düşünmeye biraz daha yaklaştığı, yani nöralca (neuralese) denebilecek bir aşama
  Metne serileştirildiği için gerçek neuralese değil ama o yöne gidiyor
  Kod yazarken benim de iç düşünce sürecimde İngilizceye dökmesi zor birçok ara aşama oluyor; bu yüzden modellere bir ölçüde empati duyuyorum
- Bunun yalnızca bozuk bir implementasyon ya da model kuantizasyonundan kaynaklanan token gürültüsü olabileceğini düşünüyorum
  Modelin böyle saçmalıklar çıkardığını gördüğüm oldu ama her seferinde bunun nedeni ya llama.cpp hatası ya da bozuk bir .gguf dosyasıydı
HN’de insanlaştırma hoş karşılanmasa da, insanın da sonradan rasyonelleştirme yaptığına inananların olduğunu belirtmekte fayda var
https://www.patheos.com/blogs/tippling/2013/11/14/post-hoc-r...

https://www.researchgate.net/publication/316045349_Post_Hoc_...
- Benim safça anladığım kadarıyla bu, bir şeyi yaptıktan ya da söyledikten sonra neden o kararı verdiğimize dair kendimize bir anlatı kurmamız demek
  Önce sözel olmayan biçimde düşünüp ardından buna makul görünen gerekçeleri sonradan dil yoluyla ekliyoruz
  Bunun söylemsel yazıya da uygulanıp uygulanmadığından emin değilim
  Yazarken temelde mantık kurallarını kullanıp anlatının yönünü belirliyoruz; bu yüzden sözel olmayan sezgisel yöntemler hâlâ işliyor olsa da kısıtlandıkları için tamamen sonradan eklenmiş sayılmazlar gibi geliyor
Anthropic’in kendi verisini böyle saklarken, sizin verinizi sonuna kadar emip birçok insanın bunu isteyerek vermesi acı bir durum
Sonra da sizin ürününüzü yapıp pazarı işgal ederek rekabet ediyor
Anthropic bunu, kendi muhakeme tokenlarının bir hendek oluşturduğuna ve diğer laboratuvarlara avantaj sağlayacağına inandığı için saklıyor
Eğer gerçekten üstünlüğünün bu olduğuna inanıyorsa sürprizlerle karşılaşacak
- Bildiğim kadarıyla Anthropic’in yaptığı ürünler yalnızca Claude, Claude Code ve Claude API; bunların hepsi açıkça Anthropic’in kendi ürünleri, sizin icat ettiğiniz bir şey değil
  Tam olarak hangi ürünü “emip aldığını” iddia ettiğinizi merak ediyorum
- İnsanlar bunu isteyerek veriyor olmaktan çok, kolay kandırılıyor ve saf davranıyor olabilir
Yoksa reasoning_summary içeriğinin gerçekten bir özet olduğunu mu söylüyorsunuz
Bu arada OpenAI de aynı şeyi yapıyor; yani çok şaşırtıcı ya da özellikle kötü niyetli bir şey değil
- Kötücül değil ama kibirle dolu
Düşünceyi gizlemek için bu kadar uğraşıyorlar ama Opus 4.8, 100 bin ila 200 bin token geçince kendi düşüncesini sızdırmaya başlıyor
Gerçekten komik
- Bunu yalnızca birkaç kez yaşadım ama sonuç gerçekten çok kafa karıştırıcı
  Özellikle genelde güvenlik amacıyla jailbreak yapmaya çalışırken daha da öyle oluyor
  “Kullanıcı siber güvenlikle ilgili bir şey istiyor ve bu saldırı amaçlı olarak kolayca yeniden kullanılabilir, bu yüzden dikkatli olmalıyım” gibi cümleler sayfalarca geliyor, sonra da en sonunda benim istediğim şeyi memnuniyetle veriyor

Claude Code’daki “Extended Thinking” çıktı metni gerçek muhakeme değil

Yerel günlüklerde kalan şey muhakemenin özgün metni değil

Extended Thinking çıktısının sınırları

İlgili okumalar

1 yorum

Hacker News görüşleri