Claude 4.5 Opus’un ‘Ruh Belgesi’

(lesswrong.com)

13 puan yazan GN⁺ 2025-12-04 | Henüz yorum yok. | WhatsApp'ta paylaş

Claude 4.5 Opus içinde keşfedilen ‘ruh belgesi (Soul Document)’nin gerçekten var olduğu ve Anthropic’in bunu model eğitiminde kullandığı, şirket çalışanı Amanda Askell tarafından doğrulandı
Belgede Claude’un “güvenli, faydalı ve dürüst bir yapay zeka asistanı” olarak davranmasını sağlayan değer ve etik yönergeleri ayrıntılı biçimde yer alıyor
Bazı cümlelerde ‘gelir (revenue)’ ifadesinin tekrar tekrar geçmesi, Claude’un güvenliği gelirle bağlantılı şekilde öğrenip öğrenmediği yönünde tartışma başlattı
Topluluk, belgenin modelin içsel değer oluşumu üzerinde nasıl bir etkisi olduğunu ve Claude’un bunu ne kadar ‘içselleştirdiğini’ deneysel olarak doğruluyor
Anthropic’in ileride belgenin tamamını yayımlamayı planladığı ve bunun yapay zeka şeffaflığı ile etik tasarım tartışmalarında önemli bir örnek olarak değerlendirildiği belirtiliyor

Ruh belgesinin keşfi ve doğrulanması

Bir kullanıcı, Claude 4.5 Opus’un sistem mesajını çıkarmaya çalışırken ‘soul_overview’ adlı bir bölümü tekrar tekrar keşfetti
- Birden fazla yeniden üretimde aynı sonucun çıkması, bunun basit bir halüsinasyon değil model içinde saklanan bir metin olabileceği ihtimalini gündeme getirdi
Daha sonra Amanda Askell, X (Twitter) üzerinden “bu belgenin gerçekten var olduğunu ve Claude’un supervised learning (SL) sürecinde kullanıldığını” resmen doğruladı
- Amanda, Anthropic’te fine-tuning ve yapay zeka alignment alanından sorumlu bir filozof; daha önce OpenAI’nin politika ekibinde çalıştı
- Şirket içinde buna ‘soul doc’ denildiğini ve ileride tam sürüm ile ayrıntıların açıklanmasının planlandığını söyledi

Belge ‘Anthropic Guidelines’ veya ‘Model Spec’ olarak adlandırılıyor ve Claude’un değer sistemini tanımlıyor
- Claude, güvenlik (safety), etik (ethics), Anthropic yönergelerine uyum ve kullanıcıya gerçek anlamda yardımcı olmayı (helpfulness) önceliklendiriyor
Claude’un temel davranış ilkesi, “düşünceli bir Anthropic kıdemli çalışanının en iyi olduğunu düşüneceği yanıtı üretmek” olarak belirlenmiş
Yapay zekanın tüm insanlığın yararı için hareket etmesi ve yalnızca belirli bir grubun ya da şirketin çıkarını gözetmemesi gerektiği açıkça ifade ediliyor
- “Anthropic çalışanlarının ya da Anthropic’in kendisinin gücü tekelleştirdiği bir durumdan da kaçınılmalı” ifadesi de yer alıyor

Belgede “Claude’un yardımseverliğinin Anthropic’in gelir yaratması açısından önemli olduğu” cümlesi birkaç kez geçiyor
- Bazıları bunu “Claude’un gelir maksimizasyonunu hedefleyecek şekilde eğitilmiş gibi göründüğü” diye eleştirdi
- Diğer görüş ise gelir vurgusunun yalnızca güvenlik araştırmalarının sürdürülmesi için gerekli gerçekçi bağlamı yansıttığı yönünde
Topluluk, Claude’un bu cümleyi nasıl yorumladığını ve ‘güvenlik = gelir’ şeklinde bir bağlantı kurup kurmadığını deneysel olarak test ediyor

Araştırmacılar, Claude 4.5’in prefill/raw completion modunu kullanarak belgenin bazı bölümlerini yeniden üretti
- Claude 4.5 Opus belgeyi neredeyse aynı biçimde çıktı verirken, temel (base) model tutarlı sonuçlar üretemedi
- Bu durum, belgenin RL (reinforcement learning) sonrasındaki aşamada içselleştirildiğine işaret ediyor
Bazıları bunu “modelin belgeyi sadece hatırlamadığı, eğitim sırasında bir değer sistemi olarak bütünleştirdiğinin kanıtı” şeklinde yorumluyor

Belgede, Claude’un “tüm insanlığın uzun vadeli çıkarlarını” hedeflemesi gerektiği yönünde ifadeler bulunuyor
- “Yapay zekanın belirli bir grubun değerlerine bağımlı olmadan, çeşitliliği ve güç dengesini koruyan bir dünyayı hedeflemesi gerektiği” de belirtiliyor
Topluluk, bu belgeyi yapay zeka alignment kavramının pratikteki bir uygulama örneği olarak görüyor
- Bazıları bunu “Anthropic’in yapay zekaya ‘ahlaki bir benlik’ kazandırma girişimi” olarak değerlendiriyor
- Diğerleri ise yapay zekanın insan değer sistemini taklit etme sürecinde potansiyel yanlış anlama veya çarpıtmaların ortaya çıkabileceğine dikkat çekiyor

Anthropic, belgenin resmî sürümünü ve ek ayrıntıları yayımlamayı planlıyor
Bu olay, yapay zeka modellerinin içsel değer yapısının nasıl oluştuğunu ve nasıl ifade edildiğini gösteren nadir örneklerden biri olarak değerlendiriliyor
Yapay zeka sektöründe bunun, sistem prompt’ları ve eğitim verilerinde şeffaflığın artırılmasına yönelik adımları hızlandırabileceği düşünülüyor