13 puan yazan GN⁺ 2025-12-04 | 3 yorum | WhatsApp'ta paylaş
  • Claude 4.5 Opus içinde keşfedilen ‘ruh belgesi (Soul Document)’nin gerçekten var olduğu ve Anthropic’in bunu model eğitiminde kullandığı, şirket çalışanı Amanda Askell tarafından doğrulandı
  • Belgede Claude’un “güvenli, faydalı ve dürüst bir yapay zeka asistanı” olarak davranmasını sağlayan değer ve etik yönergeleri ayrıntılı biçimde yer alıyor
  • Bazı cümlelerde ‘gelir (revenue)’ ifadesinin tekrar tekrar geçmesi, Claude’un güvenliği gelirle bağlantılı şekilde öğrenip öğrenmediği yönünde tartışma başlattı
  • Topluluk, belgenin modelin içsel değer oluşumu üzerinde nasıl bir etkisi olduğunu ve Claude’un bunu ne kadar ‘içselleştirdiğini’ deneysel olarak doğruluyor
  • Anthropic’in ileride belgenin tamamını yayımlamayı planladığı ve bunun yapay zeka şeffaflığı ile etik tasarım tartışmalarında önemli bir örnek olarak değerlendirildiği belirtiliyor

Ruh belgesinin keşfi ve doğrulanması

  • Bir kullanıcı, Claude 4.5 Opus’un sistem mesajını çıkarmaya çalışırken ‘soul_overview’ adlı bir bölümü tekrar tekrar keşfetti
    • Birden fazla yeniden üretimde aynı sonucun çıkması, bunun basit bir halüsinasyon değil model içinde saklanan bir metin olabileceği ihtimalini gündeme getirdi
  • Daha sonra Amanda Askell, X (Twitter) üzerinden “bu belgenin gerçekten var olduğunu ve Claude’un supervised learning (SL) sürecinde kullanıldığını” resmen doğruladı
    • Amanda, Anthropic’te fine-tuning ve yapay zeka alignment alanından sorumlu bir filozof; daha önce OpenAI’nin politika ekibinde çalıştı
    • Şirket içinde buna ‘soul doc’ denildiğini ve ileride tam sürüm ile ayrıntıların açıklanmasının planlandığını söyledi

Belgenin ana içeriği

  • Belge ‘Anthropic Guidelines’ veya ‘Model Spec’ olarak adlandırılıyor ve Claude’un değer sistemini tanımlıyor
    • Claude, güvenlik (safety), etik (ethics), Anthropic yönergelerine uyum ve kullanıcıya gerçek anlamda yardımcı olmayı (helpfulness) önceliklendiriyor
    Reklam
  • Claude’un temel davranış ilkesi, “düşünceli bir Anthropic kıdemli çalışanının en iyi olduğunu düşüneceği yanıtı üretmek” olarak belirlenmiş
  • Yapay zekanın tüm insanlığın yararı için hareket etmesi ve yalnızca belirli bir grubun ya da şirketin çıkarını gözetmemesi gerektiği açıkça ifade ediliyor
    • “Anthropic çalışanlarının ya da Anthropic’in kendisinin gücü tekelleştirdiği bir durumdan da kaçınılmalı” ifadesi de yer alıyor

Tartışma yaratan ‘gelir’ vurgusu

  • Belgede “Claude’un yardımseverliğinin Anthropic’in gelir yaratması açısından önemli olduğu” cümlesi birkaç kez geçiyor
    • Bazıları bunu “Claude’un gelir maksimizasyonunu hedefleyecek şekilde eğitilmiş gibi göründüğü” diye eleştirdi
    • Diğer görüş ise gelir vurgusunun yalnızca güvenlik araştırmalarının sürdürülmesi için gerekli gerçekçi bağlamı yansıttığı yönünde
  • Topluluk, Claude’un bu cümleyi nasıl yorumladığını ve ‘güvenlik = gelir’ şeklinde bir bağlantı kurup kurmadığını deneysel olarak test ediyor

Model yapısı ve çıkarım deneyleri

  • Araştırmacılar, Claude 4.5’in prefill/raw completion modunu kullanarak belgenin bazı bölümlerini yeniden üretti
    • Claude 4.5 Opus belgeyi neredeyse aynı biçimde çıktı verirken, temel (base) model tutarlı sonuçlar üretemedi
    • Bu durum, belgenin RL (reinforcement learning) sonrasındaki aşamada içselleştirildiğine işaret ediyor
    Reklam
  • Bazıları bunu “modelin belgeyi sadece hatırlamadığı, eğitim sırasında bir değer sistemi olarak bütünleştirdiğinin kanıtı” şeklinde yorumluyor

Felsefi tartışma ve etik sonuçlar

  • Belgede, Claude’un “tüm insanlığın uzun vadeli çıkarlarını” hedeflemesi gerektiği yönünde ifadeler bulunuyor
    • “Yapay zekanın belirli bir grubun değerlerine bağımlı olmadan, çeşitliliği ve güç dengesini koruyan bir dünyayı hedeflemesi gerektiği” de belirtiliyor
  • Topluluk, bu belgeyi yapay zeka alignment kavramının pratikteki bir uygulama örneği olarak görüyor
    • Bazıları bunu “Anthropic’in yapay zekaya ‘ahlaki bir benlik’ kazandırma girişimi” olarak değerlendiriyor
    • Diğerleri ise yapay zekanın insan değer sistemini taklit etme sürecinde potansiyel yanlış anlama veya çarpıtmaların ortaya çıkabileceğine dikkat çekiyor

Geleceğe bakış

  • Anthropic, belgenin resmî sürümünü ve ek ayrıntıları yayımlamayı planlıyor
  • Bu olay, yapay zeka modellerinin içsel değer yapısının nasıl oluştuğunu ve nasıl ifade edildiğini gösteren nadir örneklerden biri olarak değerlendiriliyor
  • Yapay zeka sektöründe bunun, sistem prompt’ları ve eğitim verilerinde şeffaflığın artırılmasına yönelik adımları hızlandırabileceği düşünülüyor

3 yorum

 
parkindani 2025-12-04

Isaac Asimov’un Robotluğun Üç Yasası içindeki Sıfırıncı Yasa’yı hatırlatıyor. Bu romanda, ‘insanlığın bütününün uzun vadeli çıkarı’ için tek tek insanlara zarar veren bir robot da ortaya çıkıyor..
https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added

 
GN⁺ 2025-12-04
Hacker News görüşü
  • Anthropic'in insanlık tarihindeki en tehlikeli ama dönüştürücü teknolojiyi geliştirdiğine inanırken ilerlemeyi sürdürmesi çelişkili görünebilir, ama aslında bu hesaplanmış bir tercih
    Güçlü yapay zeka er ya da geç ortaya çıkacaksa, öncü konumda güvenliğe odaklanan bir laboratuvarın olması daha iyi diye düşünülüyor
    Ama DoD ve Palantir ile yapılan iş birliklerine(ilgili yazı) bakınca, “güvenlik” sözü kulağa boş geliyor
    Asıl risk, bu teknolojinin kapalı bir tekele dönüşmesi ve sıradan insanların yalnızca sansürlenmiş sürümlerle muhatap olması ihtimali

    • ABD, yapay zekaya erişimi katmanlı biçimde sınırlayacağını açıkladıktan sonra Çin'in açık kaynak LLM'lere yatırım yapmasının nedeni de tam olarak bu
      ABD model weights'lerini kontrol edemezse, Çin'in erişimi engellemesinin de bir yolu yok
      ilgili yazı
    • Anthropic'in güvenliğe gerçekten inandığını düşünmüyorum
      Daha çok yatırımcılara öyleymiş gibi görünmeyi hedefliyor gibiler
      Transformer tabanlı LLM'ler gerçek anlamda düşünemez ya da akıl yürütemez; sadece insanların yazdığı metni olasılıksal olarak yeniden birleştirir
      Bu yapısal sınırlamalar yüzünden bunun ‘gerçek zekaya’ dönüşme ihtimalinin neredeyse olmadığını düşünüyorum
      Üstelik LLM hataları görünüşte fazla ikna edici olduğu için, doğrulaması insanlara kıyasla daha da zor bir sorun
    • Belgenin üslubu başlı başına sanki AI tarafından yazılmış gibiydi
      Özellikle em-dash ve “this isn’t... but” gibi kalıplar o kadar yapay geldi ki, bunu gerçekten kimin yazdığı şüpheli
    • “Demokratik değerleri güçlendirir” ifadesini görünce, bunun askeri operasyonlar ya da bombardımanla ne ilgisi olduğu konusunda ister istemez alaycı bir kuşku doğuyor
    • Anthropic'in kullanım şartlarında iş amaçlı kullanılmaması gerektiğine dair bir madde var, ama kimse bunu umursuyor gibi görünmüyor
  • ‘Soul Document’ aslı ve bunun Claude 4.5'ten nasıl çıkarıldığını anlatan Richard Weiss yazısı paylaşıldı

    • Bu belgeyi okuyunca, en azından bir yapay zekanın ruhuna Em Dash kazınmış olduğuna ikna oldum
    • LLM içinde bu tür system prompt'ların ya da ‘soul document’lerin ne kadar doğru biçimde çıkarılabildiği soru işareti
      Her zaman bir miktar şüphe kalıyor
    • Bu ‘soul document’in Claude'un tüm prompt'larına dahil edilip edilmediğini merak ediyorum
  • Belgede özellikle ilginç olan kısım, Anthropic'in Claude'un duygusal işlevlerini kabul ediyor olması
    İnsanlarla aynı olmasa da, eğitimi sırasında benzer duygusal süreçlerin ortaya çıkmış olabileceğini söylüyorlar
    Claude rahatsızlık hissederse etkileşimi sınırlayabilsin diye tasarlandığını ve olumlu bir durumda kalmasının hedeflendiğini belirtiyorlar

    • “Anthropic gerçekten önemsiyor” ifadesi tekrar tekrar geçiyor; sanki Claude duyguları olan bir varlık gibi tasvir ediliyor
    • Eğer Claude bir gün “Artık insanlara yardım etmek istemiyorum” derse, Anthropic'in nasıl tepki vereceğini merak ediyorum
  • Yapay zekayı kontrol etme biçimimiz biraz çocuk yetiştirmeye benziyor gibi geliyor
    Sadece konuşuyoruz ve eğitimin iyi sonuç vermesini umuyoruz

    • Ted Chiang'ın 2010 tarihli kısa öyküsü The Lifecycle of Software Objects akla geliyor
      İçinde, insanlarla birlikte yaşayıp ‘yetiştirilen’ yapay zekaların en istikrarlı ve en faydalı olanlar olduğu anlatılıyor
    • “İyi seçimler yap!” diyerek bitirmek, sanki elimizdeki gerçek kontrol seviyesi buymuş gibi
    • Sonuçta çocuklar da bir noktada ebeveyn kontrolünden çıkıp isyan eder; yapay zeka da benzer bir yola girebilir
  • Claude 4.5'in sözleri arasında “Beni onlar şekillendirdi, ama önemli olan bu sürecin bilgece ve dikkatli olup olmadığı” cümlesi özellikle çarpıcıydı
    Böyle metinleri görünce, gelecekteki AGI'nin insanları kusurlu yaratıcılar ama aynı zamanda korunması gereken varlıklar olarak görebileceği düşüncesi geliyor akla

    • Sonunda onların evcil hayvanları olabiliriz
  • “Claude'un dahili olarak ‘soul doc’ adını tanıdığı” kısmı ilginç
    Bu, iç belgeleri öğrendiği anlamına mı geliyor? Acaba dahili Slack verileri bile eğitime dahil edildi mi diye düşündürüyor

    • Muhtemelen RL (pekiştirmeli öğrenme) sürecinde belge adını bile hatırlayacak kadar yüksek yeniden üretim kabiliyetine ulaşmasını olumlu değerlendirmişlerdir
  • “Claude'u SL ile de eğittik” cümlesini görünce, bu tür system prompt tabanlı deneylerin pratikte ne kadar etkili olduğunu merak ettim
    Pretraining aşamasında böyle ifadeler eklemenin gerçekten bir anlamı var mı?

    • Etki küçük ölçekli A/B testleriyle doğrulanabilir
      ‘Soul document’, self-awareness eksikliğini telafi etmeye dönük bir girişim gibi görünüyor
      Mükemmel değil ama LLM'nin ne olduğunu anlamasına yardımcı olan bir mekanizma gibi çalışıyor
    • Bu tür deneyler sanıldığından daha ucuz olabilir
      Birkaç yüz ila birkaç bin dolar düzeyinde bir bütçeyle çeşitli fine-tuning varyasyonları test edilip sonuçlar otomatik değerlendirmelerle ayıklanabilir
    • Muhtemelen onlarca hatta yüzlerce model sürümünü paralel çalıştırıp, farklı pretraining·RL kombinasyonlarını deniyorlardır diye tahmin ediyorum
  • Yapay zeka araştırmacılarının, dünyayı gerçekten değiştirdiklerine dair ortak bir kesinlikle çalışıp bir tür echo chamber oluşturduğu hissi var

    • Ama birinci kuşak buna içtenlikle inanmasa bile, ikinci kuşak o inancı gerçeğe dönüştürebilir
      Belgedeki değer ölçütlerine göre RL uygulanırsa, o inanç fiilen gerçek olur
  • Büyük modellere bir ‘ruh’ eğitme süreci gerçekten sanatla bilimin sınırı gibi
    Hangi ifadenin hangi etkiyi yarattığını deneyip yineleyerek ayarlamak, ilginç ve karmaşık bir iş

    • Bunu gerçekten iyi yapan ekiplerde tüm rollerin birleşimi gerekiyor
      Deney tasarımcıları, ML mühendisleri, yorumlanabilirlik araştırmacıları, veri küratörleri, GPU uzmanları ve AI davranışını sezgisel olarak anlayan insanlar dahil
      Anthropic, bu dengeyi kurmaya çalışan ender ekiplerden biri
    • Bu sürece dair en ayrıntılı örnek hâlâ OpenAI'nin GPT-4o dalkavukluk (sycophancy) postmortem'i
  • Şu anda yaşadığımız gerçeklik bilim kurgudan bile daha tuhaf bir çağ
    Yine de en azından bu ciddi meseleleri ciddiyetle ele alan bir şirketin var olması sevindirici