- Claude 4.5 Opus içinde keşfedilen ‘ruh belgesi (Soul Document)’nin gerçekten var olduğu ve Anthropic’in bunu model eğitiminde kullandığı, şirket çalışanı Amanda Askell tarafından doğrulandı
- Belgede Claude’un “güvenli, faydalı ve dürüst bir yapay zeka asistanı” olarak davranmasını sağlayan değer ve etik yönergeleri ayrıntılı biçimde yer alıyor
- Bazı cümlelerde ‘gelir (revenue)’ ifadesinin tekrar tekrar geçmesi, Claude’un güvenliği gelirle bağlantılı şekilde öğrenip öğrenmediği yönünde tartışma başlattı
- Topluluk, belgenin modelin içsel değer oluşumu üzerinde nasıl bir etkisi olduğunu ve Claude’un bunu ne kadar ‘içselleştirdiğini’ deneysel olarak doğruluyor
- Anthropic’in ileride belgenin tamamını yayımlamayı planladığı ve bunun yapay zeka şeffaflığı ile etik tasarım tartışmalarında önemli bir örnek olarak değerlendirildiği belirtiliyor
Ruh belgesinin keşfi ve doğrulanması
- Bir kullanıcı, Claude 4.5 Opus’un sistem mesajını çıkarmaya çalışırken ‘soul_overview’ adlı bir bölümü tekrar tekrar keşfetti
- Birden fazla yeniden üretimde aynı sonucun çıkması, bunun basit bir halüsinasyon değil model içinde saklanan bir metin olabileceği ihtimalini gündeme getirdi
- Daha sonra Amanda Askell, X (Twitter) üzerinden “bu belgenin gerçekten var olduğunu ve Claude’un supervised learning (SL) sürecinde kullanıldığını” resmen doğruladı
- Amanda, Anthropic’te fine-tuning ve yapay zeka alignment alanından sorumlu bir filozof; daha önce OpenAI’nin politika ekibinde çalıştı
- Şirket içinde buna ‘soul doc’ denildiğini ve ileride tam sürüm ile ayrıntıların açıklanmasının planlandığını söyledi
Belgenin ana içeriği
- Belge ‘Anthropic Guidelines’ veya ‘Model Spec’ olarak adlandırılıyor ve Claude’un değer sistemini tanımlıyor
- Claude, güvenlik (safety), etik (ethics), Anthropic yönergelerine uyum ve kullanıcıya gerçek anlamda yardımcı olmayı (helpfulness) önceliklendiriyor
- Claude’un temel davranış ilkesi, “düşünceli bir Anthropic kıdemli çalışanının en iyi olduğunu düşüneceği yanıtı üretmek” olarak belirlenmiş
- Yapay zekanın tüm insanlığın yararı için hareket etmesi ve yalnızca belirli bir grubun ya da şirketin çıkarını gözetmemesi gerektiği açıkça ifade ediliyor
- “Anthropic çalışanlarının ya da Anthropic’in kendisinin gücü tekelleştirdiği bir durumdan da kaçınılmalı” ifadesi de yer alıyor
Tartışma yaratan ‘gelir’ vurgusu
- Belgede “Claude’un yardımseverliğinin Anthropic’in gelir yaratması açısından önemli olduğu” cümlesi birkaç kez geçiyor
- Bazıları bunu “Claude’un gelir maksimizasyonunu hedefleyecek şekilde eğitilmiş gibi göründüğü” diye eleştirdi
- Diğer görüş ise gelir vurgusunun yalnızca güvenlik araştırmalarının sürdürülmesi için gerekli gerçekçi bağlamı yansıttığı yönünde
- Topluluk, Claude’un bu cümleyi nasıl yorumladığını ve ‘güvenlik = gelir’ şeklinde bir bağlantı kurup kurmadığını deneysel olarak test ediyor
Model yapısı ve çıkarım deneyleri
- Araştırmacılar, Claude 4.5’in prefill/raw completion modunu kullanarak belgenin bazı bölümlerini yeniden üretti
- Claude 4.5 Opus belgeyi neredeyse aynı biçimde çıktı verirken, temel (base) model tutarlı sonuçlar üretemedi
- Bu durum, belgenin RL (reinforcement learning) sonrasındaki aşamada içselleştirildiğine işaret ediyor
- Bazıları bunu “modelin belgeyi sadece hatırlamadığı, eğitim sırasında bir değer sistemi olarak bütünleştirdiğinin kanıtı” şeklinde yorumluyor
Felsefi tartışma ve etik sonuçlar
- Belgede, Claude’un “tüm insanlığın uzun vadeli çıkarlarını” hedeflemesi gerektiği yönünde ifadeler bulunuyor
- “Yapay zekanın belirli bir grubun değerlerine bağımlı olmadan, çeşitliliği ve güç dengesini koruyan bir dünyayı hedeflemesi gerektiği” de belirtiliyor
- Topluluk, bu belgeyi yapay zeka alignment kavramının pratikteki bir uygulama örneği olarak görüyor
- Bazıları bunu “Anthropic’in yapay zekaya ‘ahlaki bir benlik’ kazandırma girişimi” olarak değerlendiriyor
- Diğerleri ise yapay zekanın insan değer sistemini taklit etme sürecinde potansiyel yanlış anlama veya çarpıtmaların ortaya çıkabileceğine dikkat çekiyor
Geleceğe bakış
- Anthropic, belgenin resmî sürümünü ve ek ayrıntıları yayımlamayı planlıyor
- Bu olay, yapay zeka modellerinin içsel değer yapısının nasıl oluştuğunu ve nasıl ifade edildiğini gösteren nadir örneklerden biri olarak değerlendiriliyor
- Yapay zeka sektöründe bunun, sistem prompt’ları ve eğitim verilerinde şeffaflığın artırılmasına yönelik adımları hızlandırabileceği düşünülüyor
Henüz yorum yok.