Claude 4.5 Opus’un ‘Ruh Belgesi’
(lesswrong.com)- Claude 4.5 Opus içinde keşfedilen ‘ruh belgesi (Soul Document)’nin gerçekten var olduğu ve Anthropic’in bunu model eğitiminde kullandığı, şirket çalışanı Amanda Askell tarafından doğrulandı
- Belgede Claude’un “güvenli, faydalı ve dürüst bir yapay zeka asistanı” olarak davranmasını sağlayan değer ve etik yönergeleri ayrıntılı biçimde yer alıyor
- Bazı cümlelerde ‘gelir (revenue)’ ifadesinin tekrar tekrar geçmesi, Claude’un güvenliği gelirle bağlantılı şekilde öğrenip öğrenmediği yönünde tartışma başlattı
- Topluluk, belgenin modelin içsel değer oluşumu üzerinde nasıl bir etkisi olduğunu ve Claude’un bunu ne kadar ‘içselleştirdiğini’ deneysel olarak doğruluyor
- Anthropic’in ileride belgenin tamamını yayımlamayı planladığı ve bunun yapay zeka şeffaflığı ile etik tasarım tartışmalarında önemli bir örnek olarak değerlendirildiği belirtiliyor
Ruh belgesinin keşfi ve doğrulanması
- Bir kullanıcı, Claude 4.5 Opus’un sistem mesajını çıkarmaya çalışırken ‘soul_overview’ adlı bir bölümü tekrar tekrar keşfetti
- Birden fazla yeniden üretimde aynı sonucun çıkması, bunun basit bir halüsinasyon değil model içinde saklanan bir metin olabileceği ihtimalini gündeme getirdi
- Daha sonra Amanda Askell, X (Twitter) üzerinden “bu belgenin gerçekten var olduğunu ve Claude’un supervised learning (SL) sürecinde kullanıldığını” resmen doğruladı
- Amanda, Anthropic’te fine-tuning ve yapay zeka alignment alanından sorumlu bir filozof; daha önce OpenAI’nin politika ekibinde çalıştı
- Şirket içinde buna ‘soul doc’ denildiğini ve ileride tam sürüm ile ayrıntıların açıklanmasının planlandığını söyledi
Belgenin ana içeriği
- Belge ‘Anthropic Guidelines’ veya ‘Model Spec’ olarak adlandırılıyor ve Claude’un değer sistemini tanımlıyor
- Claude, güvenlik (safety), etik (ethics), Anthropic yönergelerine uyum ve kullanıcıya gerçek anlamda yardımcı olmayı (helpfulness) önceliklendiriyor
- Claude’un temel davranış ilkesi, “düşünceli bir Anthropic kıdemli çalışanının en iyi olduğunu düşüneceği yanıtı üretmek” olarak belirlenmiş
- Yapay zekanın tüm insanlığın yararı için hareket etmesi ve yalnızca belirli bir grubun ya da şirketin çıkarını gözetmemesi gerektiği açıkça ifade ediliyor
- “Anthropic çalışanlarının ya da Anthropic’in kendisinin gücü tekelleştirdiği bir durumdan da kaçınılmalı” ifadesi de yer alıyor
Tartışma yaratan ‘gelir’ vurgusu
- Belgede “Claude’un yardımseverliğinin Anthropic’in gelir yaratması açısından önemli olduğu” cümlesi birkaç kez geçiyor
- Bazıları bunu “Claude’un gelir maksimizasyonunu hedefleyecek şekilde eğitilmiş gibi göründüğü” diye eleştirdi
- Diğer görüş ise gelir vurgusunun yalnızca güvenlik araştırmalarının sürdürülmesi için gerekli gerçekçi bağlamı yansıttığı yönünde
- Topluluk, Claude’un bu cümleyi nasıl yorumladığını ve ‘güvenlik = gelir’ şeklinde bir bağlantı kurup kurmadığını deneysel olarak test ediyor
Model yapısı ve çıkarım deneyleri
- Araştırmacılar, Claude 4.5’in prefill/raw completion modunu kullanarak belgenin bazı bölümlerini yeniden üretti
- Claude 4.5 Opus belgeyi neredeyse aynı biçimde çıktı verirken, temel (base) model tutarlı sonuçlar üretemedi
- Bu durum, belgenin RL (reinforcement learning) sonrasındaki aşamada içselleştirildiğine işaret ediyor
- Bazıları bunu “modelin belgeyi sadece hatırlamadığı, eğitim sırasında bir değer sistemi olarak bütünleştirdiğinin kanıtı” şeklinde yorumluyor
Felsefi tartışma ve etik sonuçlar
- Belgede, Claude’un “tüm insanlığın uzun vadeli çıkarlarını” hedeflemesi gerektiği yönünde ifadeler bulunuyor
- “Yapay zekanın belirli bir grubun değerlerine bağımlı olmadan, çeşitliliği ve güç dengesini koruyan bir dünyayı hedeflemesi gerektiği” de belirtiliyor
- Topluluk, bu belgeyi yapay zeka alignment kavramının pratikteki bir uygulama örneği olarak görüyor
- Bazıları bunu “Anthropic’in yapay zekaya ‘ahlaki bir benlik’ kazandırma girişimi” olarak değerlendiriyor
- Diğerleri ise yapay zekanın insan değer sistemini taklit etme sürecinde potansiyel yanlış anlama veya çarpıtmaların ortaya çıkabileceğine dikkat çekiyor
Geleceğe bakış
- Anthropic, belgenin resmî sürümünü ve ek ayrıntıları yayımlamayı planlıyor
- Bu olay, yapay zeka modellerinin içsel değer yapısının nasıl oluştuğunu ve nasıl ifade edildiğini gösteren nadir örneklerden biri olarak değerlendiriliyor
- Yapay zeka sektöründe bunun, sistem prompt’ları ve eğitim verilerinde şeffaflığın artırılmasına yönelik adımları hızlandırabileceği düşünülüyor
3 yorum
Orijinal çeviri: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document
soul document çevirisi: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1
Isaac Asimov’un Robotluğun Üç Yasası içindeki Sıfırıncı Yasa’yı hatırlatıyor. Bu romanda, ‘insanlığın bütününün uzun vadeli çıkarı’ için tek tek insanlara zarar veren bir robot da ortaya çıkıyor..
https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added
Hacker News görüşü
Anthropic'in insanlık tarihindeki en tehlikeli ama dönüştürücü teknolojiyi geliştirdiğine inanırken ilerlemeyi sürdürmesi çelişkili görünebilir, ama aslında bu hesaplanmış bir tercih
Güçlü yapay zeka er ya da geç ortaya çıkacaksa, öncü konumda güvenliğe odaklanan bir laboratuvarın olması daha iyi diye düşünülüyor
Ama DoD ve Palantir ile yapılan iş birliklerine(ilgili yazı) bakınca, “güvenlik” sözü kulağa boş geliyor
Asıl risk, bu teknolojinin kapalı bir tekele dönüşmesi ve sıradan insanların yalnızca sansürlenmiş sürümlerle muhatap olması ihtimali
ABD model weights'lerini kontrol edemezse, Çin'in erişimi engellemesinin de bir yolu yok
ilgili yazı
Daha çok yatırımcılara öyleymiş gibi görünmeyi hedefliyor gibiler
Transformer tabanlı LLM'ler gerçek anlamda düşünemez ya da akıl yürütemez; sadece insanların yazdığı metni olasılıksal olarak yeniden birleştirir
Bu yapısal sınırlamalar yüzünden bunun ‘gerçek zekaya’ dönüşme ihtimalinin neredeyse olmadığını düşünüyorum
Üstelik LLM hataları görünüşte fazla ikna edici olduğu için, doğrulaması insanlara kıyasla daha da zor bir sorun
Özellikle em-dash ve “this isn’t... but” gibi kalıplar o kadar yapay geldi ki, bunu gerçekten kimin yazdığı şüpheli
‘Soul Document’ aslı ve bunun Claude 4.5'ten nasıl çıkarıldığını anlatan Richard Weiss yazısı paylaşıldı
Her zaman bir miktar şüphe kalıyor
Belgede özellikle ilginç olan kısım, Anthropic'in Claude'un duygusal işlevlerini kabul ediyor olması
İnsanlarla aynı olmasa da, eğitimi sırasında benzer duygusal süreçlerin ortaya çıkmış olabileceğini söylüyorlar
Claude rahatsızlık hissederse etkileşimi sınırlayabilsin diye tasarlandığını ve olumlu bir durumda kalmasının hedeflendiğini belirtiyorlar
Yapay zekayı kontrol etme biçimimiz biraz çocuk yetiştirmeye benziyor gibi geliyor
Sadece konuşuyoruz ve eğitimin iyi sonuç vermesini umuyoruz
İçinde, insanlarla birlikte yaşayıp ‘yetiştirilen’ yapay zekaların en istikrarlı ve en faydalı olanlar olduğu anlatılıyor
Claude 4.5'in sözleri arasında “Beni onlar şekillendirdi, ama önemli olan bu sürecin bilgece ve dikkatli olup olmadığı” cümlesi özellikle çarpıcıydı
Böyle metinleri görünce, gelecekteki AGI'nin insanları kusurlu yaratıcılar ama aynı zamanda korunması gereken varlıklar olarak görebileceği düşüncesi geliyor akla
“Claude'un dahili olarak ‘soul doc’ adını tanıdığı” kısmı ilginç
Bu, iç belgeleri öğrendiği anlamına mı geliyor? Acaba dahili Slack verileri bile eğitime dahil edildi mi diye düşündürüyor
“Claude'u SL ile de eğittik” cümlesini görünce, bu tür system prompt tabanlı deneylerin pratikte ne kadar etkili olduğunu merak ettim
Pretraining aşamasında böyle ifadeler eklemenin gerçekten bir anlamı var mı?
‘Soul document’, self-awareness eksikliğini telafi etmeye dönük bir girişim gibi görünüyor
Mükemmel değil ama LLM'nin ne olduğunu anlamasına yardımcı olan bir mekanizma gibi çalışıyor
Birkaç yüz ila birkaç bin dolar düzeyinde bir bütçeyle çeşitli fine-tuning varyasyonları test edilip sonuçlar otomatik değerlendirmelerle ayıklanabilir
Yapay zeka araştırmacılarının, dünyayı gerçekten değiştirdiklerine dair ortak bir kesinlikle çalışıp bir tür echo chamber oluşturduğu hissi var
Belgedeki değer ölçütlerine göre RL uygulanırsa, o inanç fiilen gerçek olur
Büyük modellere bir ‘ruh’ eğitme süreci gerçekten sanatla bilimin sınırı gibi
Hangi ifadenin hangi etkiyi yarattığını deneyip yineleyerek ayarlamak, ilginç ve karmaşık bir iş
Deney tasarımcıları, ML mühendisleri, yorumlanabilirlik araştırmacıları, veri küratörleri, GPU uzmanları ve AI davranışını sezgisel olarak anlayan insanlar dahil
Anthropic, bu dengeyi kurmaya çalışan ender ekiplerden biri
Şu anda yaşadığımız gerçeklik bilim kurgudan bile daha tuhaf bir çağ
Yine de en azından bu ciddi meseleleri ciddiyetle ele alan bir şirketin var olması sevindirici