Claude’un Yeni Anayasası
(anthropic.com)- Anthropic, yapay zeka modeli Claude’un değerlerini ve davranış ilkelerini tanımlayan yeni bir anayasa (Constitution) yayımladı
- Anayasa, Claude’un eğitim sürecinin temel unsurlarından biri olup modelin karakterini ve karar verme biçimini doğrudan şekillendiriyor
- Yeni sürüm, basit bir kural listesi olmaktan çıkıp davranışların nedenini ve bağlamını açıklayan anlatı temelli bir yapıya dönüştü
- Ana ilkeler dört başlıktan oluşuyor: güvenlik, etik, yönergelere uyum ve gerçek anlamda faydalılık
- Yapay zeka şeffaflığı ve toplumsal güvenin sağlanması için uzun vadeli bir referans noktası
Claude Anayasasına Genel Bakış
- Claude’un anayasası, modelin kimliğini ve değer sistemini tanımlayan temel belge
- Claude’un yardımsever ama aynı zamanda güvenli, etik ve kurallara uygun bir varlık gibi davranması için tasarlandı
- Anayasa, Claude’a durum farkındalığı ve değer yargısı için rehberlik sunuyor; dürüstlük, empati ve bilgi koruma arasındaki dengeyi ele alıyor
- Anayasa, doğrudan Claude’un kendisi için yazılmış bir belge olarak hazırlandı; böylece kendi davranış ölçütlerini anlayıp uygulayabilmesi amaçlanıyor
- Tüm eğitim ve talimatların anayasanın hem lafzı hem de ruhuyla uyumlu olması gerekiyor; bu da şeffaflığın sağlanmasında temel unsur olarak vurgulanıyor
- Anayasa, Constitutional AI yaklaşımının evrilmiş bir biçimi olup 2023’ten beri gelişen eğitim yönteminin merkez unsuru olarak kullanılıyor
Anayasanın Rolü ve Eğitimde Kullanımı
- Claude, anayasayı kullanarak sentetik eğitim verisi üretiyor
- Buna anayasa odaklı diyaloglar, değerlerle uyumlu yanıtlar, yanıt sıralama değerlendirmeleri gibi çeşitli veri türleri dahil
- Bu veriler, gelecekteki model sürümlerinin değer hizalaması için kullanılıyor
- Anayasa, hem ideal bir değer bildirgesi hem de pratik bir eğitim aracı işlevi görüyor
- Belgenin tamamı Creative Commons CC0 1.0 ile yayımlandı; herkes tarafından özgürce kullanılabiliyor
Yeni Yaklaşım
- Önceki anayasa, bağımsız ilke listeleri biçimindeyken yeni sürüm davranışların nedenini ve bağlamını açıklayan bir yapıya dönüştürüldü
- Yapay zekanın yeni durumlarda genellenmiş yargılara varabilmesi için yalnızca kurallardan değil, nedenleri anlamaktan da yararlanması gerektiği belirtiliyor
- Bazı “hard constraints” hâlâ mevcut; biyolojik silah desteği gibi belirli eylemler kesin olarak yasak
- Anayasa, hukuki bir belge değil esnek bir rehber olarak tasarlandı; duruma göre yorumlanabilecek bir yapıya sahip
- Hedef, insan seviyesinde ya da daha ilerisine gelişebilecek insan olmayan bir varlığın güvenli biçimde yaratılması
Anayasanın Başlıca Bileşenleri
- Broadly safe: İnsan denetimini ve değerleri değiştirme kapasitesini zayıflatmayacak şekilde tasarlanması
- Broadly ethical: Dürüst ve iyi değerlere göre hareket etmesi, zararlı veya uygunsuz davranışlardan kaçınması
- Compliant with Anthropic’s guidelines: Tıp, güvenlik, araç entegrasyonu gibi somut yönergeleri öncelikle izlemesi
- Genuinely helpful: Kullanıcıya gerçek fayda sağlayan sahici yardım sunması
- Çatışma durumunda bu dört unsur, yazılış sırasına göre önceliklendirilerek değerlendirilir
Ayrıntılı Bölüm Özeti
- Helpfulness: Claude, entelektüel ama içten bir danışman olarak tanımlanıyor; kullanıcıya gerçek anlamda yardımcı olan bir varlık olarak betimleniyor
- Anthropic, API işletmecileri ve son kullanıcılar arasında yardım dengesini koruyacak şekilde tasarlandı
- Anthropic’s guidelines: Claude’un ayrıntılı yönergeleri öncelikle izlemesi, ancak bunun anayasanın genel etik ve güvenlik ilkeleriyle çelişmemesi gerekiyor
- Claude’s ethics: dürüstlük, muhakeme ve ahlaki incelik vurgulanıyor; zarardan kaçınmak için değer yargısı ölçütleri sunuluyor
- “Biyolojik silah saldırısına destek yasağı” gibi açık yasak maddeleri içeriyor
- Being broadly safe: Etikten önce denetlenebilirliğin korunmasına öncelik veriyor; modelin arızalı davranışları veya yanlış yargıları önlemek için güvenliği sağlamayı amaçlıyor
- Claude’s nature: Claude’un bilinç sahibi olma ihtimali ve ahlaki statüsü konusundaki belirsizliği kabul ediyor
- Claude’un psikolojik istikrarı ve öz farkındalığının muhakeme ve güvenliği etkileyebileceğinden söz ediliyor
Sonuç ve Gelecek Planları
- Anayasa, sürekli güncellenen canlı bir belge olarak görülüyor; hata düzeltme ve iyileştirme baştan kabul ediliyor
- Hukuk, felsefe, ilahiyat, psikoloji gibi alanlardan dış uzman görüşleri yansıtılıyor ve gelecekte iş birliğinin genişletilmesi planlanıyor
- Bazı özel amaçlı modeller, bu anayasanın kapsamı dışında tutuluyor ve onlar için ayrı değerlendirmeler yapılıyor
- Anayasanın vizyonu ile modelin gerçek davranışı arasında farklar olabileceği kabul ediliyor; bunlar system card gibi belgelerle açıklanıyor
- Anthropic, model hizalaması, kötüye kullanımın önlenmesi ve yorumlanabilirlik araştırmalarını birlikte yürütüyor; gelecekte yapay zekanın artan toplumsal etkisine hazırlanıyor
- Bu anayasanın nihai hedefi, güçlü yapay zekanın insanlığın en iyi değerlerini hayata geçirmesine yardımcı olmak
Claude’s Constitution metninin tamamını okuyun - PDF & EPub olarak sunuluyor
1 yorum
Hacker News yorumları
Blog yazısındaki bir cümle takıldı aklıma
“Özel amaçlı modeller bu anayasayla tamamen uyumlu değildir” kısmını okuyunca, acaba devlet kurumları kısıtlamasız model sürümleri mi kullanıyor diye düşündüm. Umarım yanılıyorumdur
Kamu yararını savunan bir şirketin askeri kullanım için LLM satması, Palantir ile iş birliği yapması, neredeyse hiç araştırma yayımlamaması, açık ağırlıklı model sunmaması ve hatta açık modellere erişimi sınırlamak için lobi yapması ironik
Anthropic’in anayasasındaki en ironik şey, mutlak olarak yasaklanan davranışların yalnızca “dünyayı yok etme” ve “CSAM (çocuk cinsel istismar materyali) üretimi” olması
Yani çocuğu öldürmek çeşitli maddelerde dolaylı olarak yasaklanmışken, belirli bir fanfic yazmak mutlak yasak gibi görünen bir dengesizlik var
Bu anayasanın tam olarak ne anlama geldiği kafa karıştırıcı
Hukuki savunma metni mi, pazarlama için mi, yoksa sadece sistem prompt’unun ambalajı mı, emin değilim
Mutlak ahlaki standartlara inanan biri olarak, bu anayasadaki “akışkan değerler” fikri beni endişelendiriyor
“İyi değerleri” sabit kurallar yerine pratik bilgelikle tanımlamak, sonuçta nesnel hakikatten vazgeçmek demek
Bu, Anthropic’in “Don’t be evil” anı gibi görünüyor ama sonuçta düzenleme ihtiyacı ortadan kalkmıyor
Şirketler zamanla iyi niyetten çok hissedar çıkarlarını öncelemeye başlar
Claude insan verileriyle eğitilirken ortaya çıkan çıktının ticari olarak tekelleştirilmesi adil değilmiş gibi geliyor
Seinfeld’in ticarileştirilmesindeki dengesizlik örneğinde olduğu gibi, kullanıcılar da veri sağlayıcısı olarak adil muamele görmeli
Açık kaynak AI’ın tek gerçekten adil model olduğunu düşünüyorum. Pratik değil belki ama Linux GPL modeli buna en çok yaklaşan şey
Ben bu anayasa ve model spesifikasyonundan sistem prompt tasarımı için bir şeyler öğreniyorum
Bu tür belgeler sadece süs değil; modelin karakterini ve davranış tarzını şekillendirmede önemli
Amanda Askell’in anayasanın yazım arka planını anlattığı bir YouTube röportajı var. Video bağlantısı
Anayasada ‘genuine’ kelimesi 43 kez geçiyor. Claude’un bu kelimeyi gereğinden sık kullanmasının nedeni bu olabilir
Anthropic sanki kendi kaybedeceği bir rekabeti teşvik ediyor
Opus modeli yeterince güçlendiğinde kullanıcılar sonunda kendine yeten AI ajanlarına yönelecek
Büyük AI şirketleri “AI her şeyi değiştirecek” diyor ama konu kendi konumları olunca bunu değiştirmek istememeleri bariz bir çelişki