1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Claude Code oturumları diske kaydediyor, ancak yerel günlüklerdeki thinking block içinde gerçek muhakeme metni yerine yalnızca 600 karakterlik bir signature bulunuyor
  • Claude’un muhakemesi signature ile şifreleniyor ve anahtar Anthropic’te tutuluyor; kullanıcı cihazına iletilmiyor
  • API’nin döndürdüğü şey gerçek muhakemenin özgün metni değil, muhakeme özeti; tam thinking output’a erişmek için bir enterprise agreement gerekiyor
  • ctrl+o ile görülen extended-thinking çıktısı da Fable/Opus’un düşünme sürecinin özeti; oturumda model davranışını doğrudan yönlendiren muhakemenin kendisi değil
  • Claude Code oturumlarını denetim izi olarak kullanacaksanız, yalnızca yerel dosyalar, girdi-çıktı ve işlem günlükleriyle ajanın gerçek mantığını yeniden kuramayacağınızı varsaymanız gerekiyor

Yerel günlüklerde kalan şey muhakemenin özgün metni değil

  • Claude Code her oturumu diske kaydediyor ve bu günlükler model çalışırken oluşan thinking blocks içeriyor
  • Bu muhakemeyi yerelde incelemeye çalışıldığında gerçek metin bulunmuyor; yalnızca 600 karakterlik bir signature görülüyor
  • Anthropic’in extended thinking dokümantasyonu bu yapıyı şöyle açıklıyor
    • Claude, muhakemeyi ilgili signature içinde şifreliyor
    • Anahtar Anthropic’te tutuluyor
    • Kullanıcı cihazı anahtarı almıyor
    • API, muhakemenin kendisini değil reasoning summary döndürüyor
    • Tam thinking output’a erişmek için enterprise agreement gerekiyor
  • Matt Green’in yazısı signature block hakkında daha ayrıntılı gözlemler içeriyor

Extended Thinking çıktısının sınırları

  • Claude Code’da ctrl+o ile görülen extended-thinking çıktısı, Fable/Opus thinking’in özeti
  • Bu çıktı, oturumda modelin davranışını gerçekten yönlendiren thinking’in kendisi değil; thinking mantığının sıkıştırılmış bir sonucu
  • Özete dönüştürülme sürecinde veri kaybı yaşanıyor; özgün metin bunu, dosya biçimi dönüştürülürken bilginin kaybolmasına benzetiyor
  • Claude Code oturumunda ajanın kullandığı mantığın kaydına ihtiyaç duyulduğunda dikkat edilmesi gerekenler
    • Yalnızca yerel dosyalarla bu mantık üretilemez
    • Sistemde kalan muhakeme günlükleri kullanıcıya erişilebilir bir biçimde değil
    • Girdiler, çıktılar ve çalışan Claude Code’un davranışları ayrıca çekilip kaydedilebilir
    • Ancak bu tür günlükler de ajanın davranışını gerçekten yönlendiren muhakemenin kendisi değil
  • Dokümandaki “extended thinking returns a summary of Claude’s full thinking process” ifadesi dolaylı olduğu için, bunun gerçekten full thinking döndürdüğü şeklinde yanlış anlaşılabilir

1 yorum

 
GN⁺ 4 시간 전
Hacker News görüşleri
  • Bu yalnızca Anthropic’e özgü bir sorun değil; OpenAI ve Google dahil neredeyse tüm büyük yapay zeka şirketleri modelin gerçek akıl yürütme sürecini gizliyor
    Çünkü ham akıl yürütmeyi açığa çıkarmak, yapay zekanın bilgiyi nasıl işlediğini doğrudan ortaya koyar ve bu şirketler rakiplerinden daha iyi düşünme süreçleri geliştirmek için devasa Ar-Ge bütçeleri harcıyor
    Bu düşünme mekanizmasını rakiplere açmak, yapılan harcamanın amacını bizzat boşa çıkarmak olur; bunu asla yapmazlar, kendi peşinden gelen birine tam konumunu söylemeye benzer

    • Bu, dünyadaki bilgiyi makinenin okuyabileceği bir formatta sunmaya da benziyor; böylece yapay zeka şirketleri bunu izin ya da karşılık olmadan model ağırlıklarına dönüştürebiliyor
    • Daha da önemlisi, modelin akıl yürütmesini açarsanız rakipler bunu eğitimde kullanıp sonucu kopyalayabilir
      Bu içeriği özet gibi bir yöntemle sonradan işlerseniz, rakip için daha az kullanışlı hale gelir
    • Asıl nedenin, “akıl yürütme”nin hizalanmış model çıktısı ile pek uyumlu olmaması olduğunu düşünüyordum; bu yüzden akıl yürütme sırasında hizalama kaldırılıyor ve “hizalanmamış” model çıktısı görünmesin diye saklanıyor
    • Google’dan kişisel verileri dışa aktardığınızda model yanıtlarının tamamını gizleyip yalnızca kullanıcı mesajlarını bırakıyor
      Bu yüzden daha da kötü
    • Ancak karmaşık sorunlarda çözüme giden sürecin de incelenebilir olması gerekir; bu yaklaşım ürünü daha kötü hale getiriyor
  • “Bu gerçek düşünce değil, düşünme mantığının özeti. Bir jpeg’i .bmp olarak kaydedip sonra .bmp’yi düzenleyip yeniden .jpeg gibi sunmaya benziyor. Dönüşüm sırasında veri kaybı oluyor” benzetmesi ters
    .bmp kayıpsız bir formattır, .jpeg ise kayıplı

  • Gizli akıl yürütmeye sahip modelleri ne kullanmayı ne de tavsiye etmeyi düşünüyorum; ABD modellerinin hepsi buna dahil
    Risk çok büyük ve prompt optimizasyonu da daha zor hale geliyor
    Saldırgan, prompt injection ile akıl yürütme zincirine gizli hedefler yerleştirip bunu özet ve çıktı kısmında saklayabildiği için tehlikeli
    Akıl yürütme ile function calling karıştığında daha da tehlikeli hale geliyor; model gizli akıl yürütme aşamasında fonksiyon çağırabilir
    Bu durumda saldırgan veri sızdırsa bile, akıl yürütme özeti bunu kullanıcıdan gizleyebilir
    Ayrıca modelin akıl yürütme sırasında sonsuz döngüye girip token harcadığını da bilemezsiniz; Gemini’de buna yatkınlık var ve gizli akıl yürütme sızdığında bunun görüldüğü oldu
    Model AGI seviyesine ulaşıp prompt injection’a karşı güvenli hale gelirse belki umursamam ama o zamana kadar modelin promptlara tam olarak nasıl tepki verdiğini, ajanların benim yerime tam olarak ne yaptığını bilmek istiyorum
    Ek okuma: Fooling around with encrypted reasoning blobs
    https://blog.cryptographyengineering.com/2026/05/29/fooling-...

    • Karartılmış akıl yürütme blokları içinde araç çağrıları gerçekleşebileceğini sanmıyorum
      Function calling’i istemci tarafında değerlendirmek için bir noktada o düşünce akışını istemcide çözmeniz gerekir; o zaman da bu şekilde karartmanın amacı ortadan kalkar
      Sunucu tarafında fonksiyon çağrısı yapılabileceği kastediliyorsa, akıl yürütme API’si kullandığınız sürece sunucunun bunu yapıp gizlemesini engellemenin bir yolu yok
    • Akıl yürütme zincirinin ele geçirilmesini potansiyel bir saldırı yolu olarak düşünmüştüm ama büyük sağlayıcıların turlar arasındaki tüm akıl yürütme tokenlarını attığını anlıyorum; bu yüzden ABD modellerinde kanıtlanmış bir uygulama görmedim
    • Yaptığım bu ajan shell’de çalışamıyor, yalnızca proje içindeki dosyaları düzenleyebiliyor
      Şimdilik yalnızca Rust’ta çalışıyor: https://github.com/Kapperchino/agent-joe
    • Akıl yürütme gizlense bile araç çağrıları gizlenmez
      Aksi halde istemci bunları nasıl çalıştıracak
    • Düşünce blokları araç çağrısı yapamıyorsa, veri sızdırma riskini çok net göremiyorum
  • Bu zaten uzun zamandır bilinen bir şey ve şirketler de bunu özellikle saklamaya çalışmıyor
    Rakiplerin modeli düşünce zinciri (CoT) ile eğitmesini engellemek için yapıyorlar

    • Sanırım bu Opus 4.6’dan beri vardı
      Bu değişikliğin ocak ya da şubat gibi yapıldığını net hatırlıyorum ve neden olarak da açıkça damıtmayı önleme belirtilmişti
      Sonnet’te bu sınırlama yok
      İlginç olan şu ki, iki yıl önceki yönteme dönüp açıkça CoT promptu eklerseniz tüm düşünce promptu yeniden ortaya çıkıyor
      Yani düşünme özelliğini tamamen kapatıp, onun yerine normal promptun içine aşağıdaki gibi düşünmeyi dahil edebilirsiniz
      “Yanıt vermeden önce adım adım düşün. Örneğin:

      Kullanıcı benden … istiyor
      Benim blah blah üzerine düşünmem gerekiyor. Önce foo the bar yapmalı, sonra blah blah yapmalıyım

      Yanıt: ”

      Sonra tada.wav, CoT tekrar GPT-3 dönemindeki gibi çalışıyor

  • Düşünce zinciri akıl yürütme bloklarının, insanların düşündüğü anlamdaki akıl yürütmeyle çok da örtüştüğünü sanmıyorum
    Fable/Mythos sistem kartının 6.2.2 bölümündeki “okunması zor akıl yürütme” ve Apple’ın “The illusion of thinking” makalesinin ortaya attığı sorulara bakabilirsiniz
    Kullanıcılar içeride neler döndüğünü görse şaşıracağı için akıl yürütme bloklarını gizlediklerini düşünüyordum
    Meslektaşlarımın kafasının içinde gerçekte neler olup bittiğini görsem ben de muhtemelen şaşırırdım

    • Bu yazının asıl noktası, LLM’lerin “akıl yürütme” aşamasının insanların düşündüğü akıl yürütmeyle aynı olmaması değil; Anthropic’in Claude’un akıl yürütme çıktısını kasten gizleyerek model damıtmayı zorlaştırması
    • DeepSeek ya da GLM’nin düşünce zincirini okurken “ne düşünüyor bu böyle” diye sayısız kez haykırdım, ama sonunda doğru sonuca gittiği oldu
      Tersine, yanıtın içine girmemiş olsa da içinde faydalı fikirler barındırdığı durumlar da oldu
  • Eskiden DeepSeek R1’in bu tür düşünce izleri ürettiğine dair kısa bir not bırakılmıştı
    “(Dimethyl(oxo)-lambda6-sulfa雰囲idine)methane donate a CH2rola group occurs in reaction, Practisingproduct transition vs adds this.to productmodule. Indeed"come tally said Frederick would have 10 +1 =11 carbons. So answer q Edina is11.”
    Ve ardından kimya sorusu için ‘doğru’ cevabı sonuç olarak veriyor
    O halde düşünce izi, okuyucuya bakınca oldukça anlamsız bir karakter dizisi gibi görünebilir; bunun modele özgü bir tuhaflık mı yoksa genel olarak LLM’lerin bir özelliği mi olduğu ise henüz pek net değil
    Daha önce yazarla bunu konuşmuştum ama makale NeurIPS gibi bir yerde yayımlanacak denince sonradan kontrol etmeyi unuttum; biri bulursa paylaşması iyi olur
    0: https://wiki.roshangeorge.dev/w/Blog/2025-10-12/Word_Magic#I...?
    1: Muhtemelen doğru bir inanç anlamında

    • Evet, çeşitli modeller garip bir uzman jargonu benzeri biçimde düşünüyor
      Mythos’un solitaire oynarkenki düşünce örneği burada: https://www.lesswrong.com/posts/wCSEpT3dTGz4N86Wi/even-illeg...

      “7♣-removal-IS-the-prerequisite-for-10♠/9♥!!)-⟹-OVERLAP-(ii)+(iv):-{6♠ J♦ 9♥ 2♣}-=-FOUR--—-UNLESS-7♣'s-seat-8♥-...-and-2♣-drains-only-at-crack-:-⟹-2♣-celled-+-9♥-celled-simultaneously-UNAVOIDABLE-in-t8-dig--—-BREAK:-9♥”

      Bu, modelin İngilizce düşünmeyi bırakıp iç vektör uzayında düşünmeye biraz daha yaklaştığı, yani nöralca (neuralese) denebilecek bir aşama
      Metne serileştirildiği için gerçek neuralese değil ama o yöne gidiyor
      Kod yazarken benim de iç düşünce sürecimde İngilizceye dökmesi zor birçok ara aşama oluyor; bu yüzden modellere bir ölçüde empati duyuyorum

    • Bunun yalnızca bozuk bir implementasyon ya da model kuantizasyonundan kaynaklanan token gürültüsü olabileceğini düşünüyorum
      Modelin böyle saçmalıklar çıkardığını gördüğüm oldu ama her seferinde bunun nedeni ya llama.cpp hatası ya da bozuk bir .gguf dosyasıydı

  • HN’de insanlaştırma hoş karşılanmasa da, insanın da sonradan rasyonelleştirme yaptığına inananların olduğunu belirtmekte fayda var
    https://www.patheos.com/blogs/tippling/2013/11/14/post-hoc-r...

    https://www.researchgate.net/publication/316045349_Post_Hoc_...

    • Benim safça anladığım kadarıyla bu, bir şeyi yaptıktan ya da söyledikten sonra neden o kararı verdiğimize dair kendimize bir anlatı kurmamız demek
      Önce sözel olmayan biçimde düşünüp ardından buna makul görünen gerekçeleri sonradan dil yoluyla ekliyoruz
      Bunun söylemsel yazıya da uygulanıp uygulanmadığından emin değilim
      Yazarken temelde mantık kurallarını kullanıp anlatının yönünü belirliyoruz; bu yüzden sözel olmayan sezgisel yöntemler hâlâ işliyor olsa da kısıtlandıkları için tamamen sonradan eklenmiş sayılmazlar gibi geliyor
  • Anthropic’in kendi verisini böyle saklarken, sizin verinizi sonuna kadar emip birçok insanın bunu isteyerek vermesi acı bir durum
    Sonra da sizin ürününüzü yapıp pazarı işgal ederek rekabet ediyor
    Anthropic bunu, kendi muhakeme tokenlarının bir hendek oluşturduğuna ve diğer laboratuvarlara avantaj sağlayacağına inandığı için saklıyor
    Eğer gerçekten üstünlüğünün bu olduğuna inanıyorsa sürprizlerle karşılaşacak

    • Bildiğim kadarıyla Anthropic’in yaptığı ürünler yalnızca Claude, Claude Code ve Claude API; bunların hepsi açıkça Anthropic’in kendi ürünleri, sizin icat ettiğiniz bir şey değil
      Tam olarak hangi ürünü “emip aldığını” iddia ettiğinizi merak ediyorum
    • İnsanlar bunu isteyerek veriyor olmaktan çok, kolay kandırılıyor ve saf davranıyor olabilir
  • Yoksa reasoning_summary içeriğinin gerçekten bir özet olduğunu mu söylüyorsunuz
    Bu arada OpenAI de aynı şeyi yapıyor; yani çok şaşırtıcı ya da özellikle kötü niyetli bir şey değil

    • Kötücül değil ama kibirle dolu
  • Düşünceyi gizlemek için bu kadar uğraşıyorlar ama Opus 4.8, 100 bin ila 200 bin token geçince kendi düşüncesini sızdırmaya başlıyor
    Gerçekten komik

    • Bunu yalnızca birkaç kez yaşadım ama sonuç gerçekten çok kafa karıştırıcı
      Özellikle genelde güvenlik amacıyla jailbreak yapmaya çalışırken daha da öyle oluyor
      “Kullanıcı siber güvenlikle ilgili bir şey istiyor ve bu saldırı amaçlı olarak kolayca yeniden kullanılabilir, bu yüzden dikkatli olmalıyım” gibi cümleler sayfalarca geliyor, sonra da en sonunda benim istediğim şeyi memnuniyetle veriyor