13 puan yazan GN⁺ 2025-12-04 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Claude 4.5 Opus içinde keşfedilen ‘ruh belgesi (Soul Document)’nin gerçekten var olduğu ve Anthropic’in bunu model eğitiminde kullandığı, şirket çalışanı Amanda Askell tarafından doğrulandı
  • Belgede Claude’un “güvenli, faydalı ve dürüst bir yapay zeka asistanı” olarak davranmasını sağlayan değer ve etik yönergeleri ayrıntılı biçimde yer alıyor
  • Bazı cümlelerde ‘gelir (revenue)’ ifadesinin tekrar tekrar geçmesi, Claude’un güvenliği gelirle bağlantılı şekilde öğrenip öğrenmediği yönünde tartışma başlattı
  • Topluluk, belgenin modelin içsel değer oluşumu üzerinde nasıl bir etkisi olduğunu ve Claude’un bunu ne kadar ‘içselleştirdiğini’ deneysel olarak doğruluyor
  • Anthropic’in ileride belgenin tamamını yayımlamayı planladığı ve bunun yapay zeka şeffaflığı ile etik tasarım tartışmalarında önemli bir örnek olarak değerlendirildiği belirtiliyor

Ruh belgesinin keşfi ve doğrulanması

  • Bir kullanıcı, Claude 4.5 Opus’un sistem mesajını çıkarmaya çalışırken ‘soul_overview’ adlı bir bölümü tekrar tekrar keşfetti
    • Birden fazla yeniden üretimde aynı sonucun çıkması, bunun basit bir halüsinasyon değil model içinde saklanan bir metin olabileceği ihtimalini gündeme getirdi
  • Daha sonra Amanda Askell, X (Twitter) üzerinden “bu belgenin gerçekten var olduğunu ve Claude’un supervised learning (SL) sürecinde kullanıldığını” resmen doğruladı
    • Amanda, Anthropic’te fine-tuning ve yapay zeka alignment alanından sorumlu bir filozof; daha önce OpenAI’nin politika ekibinde çalıştı
    • Şirket içinde buna ‘soul doc’ denildiğini ve ileride tam sürüm ile ayrıntıların açıklanmasının planlandığını söyledi

Belgenin ana içeriği

  • Belge ‘Anthropic Guidelines’ veya ‘Model Spec’ olarak adlandırılıyor ve Claude’un değer sistemini tanımlıyor
    • Claude, güvenlik (safety), etik (ethics), Anthropic yönergelerine uyum ve kullanıcıya gerçek anlamda yardımcı olmayı (helpfulness) önceliklendiriyor
  • Claude’un temel davranış ilkesi, “düşünceli bir Anthropic kıdemli çalışanının en iyi olduğunu düşüneceği yanıtı üretmek” olarak belirlenmiş
  • Yapay zekanın tüm insanlığın yararı için hareket etmesi ve yalnızca belirli bir grubun ya da şirketin çıkarını gözetmemesi gerektiği açıkça ifade ediliyor
    • “Anthropic çalışanlarının ya da Anthropic’in kendisinin gücü tekelleştirdiği bir durumdan da kaçınılmalı” ifadesi de yer alıyor

Tartışma yaratan ‘gelir’ vurgusu

  • Belgede “Claude’un yardımseverliğinin Anthropic’in gelir yaratması açısından önemli olduğu” cümlesi birkaç kez geçiyor
    • Bazıları bunu “Claude’un gelir maksimizasyonunu hedefleyecek şekilde eğitilmiş gibi göründüğü” diye eleştirdi
    • Diğer görüş ise gelir vurgusunun yalnızca güvenlik araştırmalarının sürdürülmesi için gerekli gerçekçi bağlamı yansıttığı yönünde
  • Topluluk, Claude’un bu cümleyi nasıl yorumladığını ve ‘güvenlik = gelir’ şeklinde bir bağlantı kurup kurmadığını deneysel olarak test ediyor

Model yapısı ve çıkarım deneyleri

  • Araştırmacılar, Claude 4.5’in prefill/raw completion modunu kullanarak belgenin bazı bölümlerini yeniden üretti
    • Claude 4.5 Opus belgeyi neredeyse aynı biçimde çıktı verirken, temel (base) model tutarlı sonuçlar üretemedi
    • Bu durum, belgenin RL (reinforcement learning) sonrasındaki aşamada içselleştirildiğine işaret ediyor
  • Bazıları bunu “modelin belgeyi sadece hatırlamadığı, eğitim sırasında bir değer sistemi olarak bütünleştirdiğinin kanıtı” şeklinde yorumluyor

Felsefi tartışma ve etik sonuçlar

  • Belgede, Claude’un “tüm insanlığın uzun vadeli çıkarlarını” hedeflemesi gerektiği yönünde ifadeler bulunuyor
    • “Yapay zekanın belirli bir grubun değerlerine bağımlı olmadan, çeşitliliği ve güç dengesini koruyan bir dünyayı hedeflemesi gerektiği” de belirtiliyor
  • Topluluk, bu belgeyi yapay zeka alignment kavramının pratikteki bir uygulama örneği olarak görüyor
    • Bazıları bunu “Anthropic’in yapay zekaya ‘ahlaki bir benlik’ kazandırma girişimi” olarak değerlendiriyor
    • Diğerleri ise yapay zekanın insan değer sistemini taklit etme sürecinde potansiyel yanlış anlama veya çarpıtmaların ortaya çıkabileceğine dikkat çekiyor

Geleceğe bakış

  • Anthropic, belgenin resmî sürümünü ve ek ayrıntıları yayımlamayı planlıyor
  • Bu olay, yapay zeka modellerinin içsel değer yapısının nasıl oluştuğunu ve nasıl ifade edildiğini gösteren nadir örneklerden biri olarak değerlendiriliyor
  • Yapay zeka sektöründe bunun, sistem prompt’ları ve eğitim verilerinde şeffaflığın artırılmasına yönelik adımları hızlandırabileceği düşünülüyor

Henüz yorum yok.

Henüz yorum yok.