7 puan yazan GN⁺ 2026-01-22 | 1 yorum | WhatsApp'ta paylaş
  • Anthropic, yapay zeka modeli Claude’un değerlerini ve davranış ilkelerini tanımlayan yeni bir anayasa (Constitution) yayımladı
  • Anayasa, Claude’un eğitim sürecinin temel unsurlarından biri olup modelin karakterini ve karar verme biçimini doğrudan şekillendiriyor
  • Yeni sürüm, basit bir kural listesi olmaktan çıkıp davranışların nedenini ve bağlamını açıklayan anlatı temelli bir yapıya dönüştü
  • Ana ilkeler dört başlıktan oluşuyor: güvenlik, etik, yönergelere uyum ve gerçek anlamda faydalılık
  • Yapay zeka şeffaflığı ve toplumsal güvenin sağlanması için uzun vadeli bir referans noktası

Claude Anayasasına Genel Bakış

  • Claude’un anayasası, modelin kimliğini ve değer sistemini tanımlayan temel belge
    • Claude’un yardımsever ama aynı zamanda güvenli, etik ve kurallara uygun bir varlık gibi davranması için tasarlandı
    • Anayasa, Claude’a durum farkındalığı ve değer yargısı için rehberlik sunuyor; dürüstlük, empati ve bilgi koruma arasındaki dengeyi ele alıyor
  • Anayasa, doğrudan Claude’un kendisi için yazılmış bir belge olarak hazırlandı; böylece kendi davranış ölçütlerini anlayıp uygulayabilmesi amaçlanıyor
  • Tüm eğitim ve talimatların anayasanın hem lafzı hem de ruhuyla uyumlu olması gerekiyor; bu da şeffaflığın sağlanmasında temel unsur olarak vurgulanıyor
  • Anayasa, Constitutional AI yaklaşımının evrilmiş bir biçimi olup 2023’ten beri gelişen eğitim yönteminin merkez unsuru olarak kullanılıyor

Anayasanın Rolü ve Eğitimde Kullanımı

  • Claude, anayasayı kullanarak sentetik eğitim verisi üretiyor
    • Buna anayasa odaklı diyaloglar, değerlerle uyumlu yanıtlar, yanıt sıralama değerlendirmeleri gibi çeşitli veri türleri dahil
    • Bu veriler, gelecekteki model sürümlerinin değer hizalaması için kullanılıyor
  • Anayasa, hem ideal bir değer bildirgesi hem de pratik bir eğitim aracı işlevi görüyor
  • Belgenin tamamı Creative Commons CC0 1.0 ile yayımlandı; herkes tarafından özgürce kullanılabiliyor

Yeni Yaklaşım

  • Önceki anayasa, bağımsız ilke listeleri biçimindeyken yeni sürüm davranışların nedenini ve bağlamını açıklayan bir yapıya dönüştürüldü
  • Yapay zekanın yeni durumlarda genellenmiş yargılara varabilmesi için yalnızca kurallardan değil, nedenleri anlamaktan da yararlanması gerektiği belirtiliyor
  • Bazı “hard constraints” hâlâ mevcut; biyolojik silah desteği gibi belirli eylemler kesin olarak yasak
  • Anayasa, hukuki bir belge değil esnek bir rehber olarak tasarlandı; duruma göre yorumlanabilecek bir yapıya sahip
  • Hedef, insan seviyesinde ya da daha ilerisine gelişebilecek insan olmayan bir varlığın güvenli biçimde yaratılması

Anayasanın Başlıca Bileşenleri

  • Broadly safe: İnsan denetimini ve değerleri değiştirme kapasitesini zayıflatmayacak şekilde tasarlanması
  • Broadly ethical: Dürüst ve iyi değerlere göre hareket etmesi, zararlı veya uygunsuz davranışlardan kaçınması
  • Compliant with Anthropic’s guidelines: Tıp, güvenlik, araç entegrasyonu gibi somut yönergeleri öncelikle izlemesi
  • Genuinely helpful: Kullanıcıya gerçek fayda sağlayan sahici yardım sunması
  • Çatışma durumunda bu dört unsur, yazılış sırasına göre önceliklendirilerek değerlendirilir

Ayrıntılı Bölüm Özeti

  • Helpfulness: Claude, entelektüel ama içten bir danışman olarak tanımlanıyor; kullanıcıya gerçek anlamda yardımcı olan bir varlık olarak betimleniyor
    • Anthropic, API işletmecileri ve son kullanıcılar arasında yardım dengesini koruyacak şekilde tasarlandı
  • Anthropic’s guidelines: Claude’un ayrıntılı yönergeleri öncelikle izlemesi, ancak bunun anayasanın genel etik ve güvenlik ilkeleriyle çelişmemesi gerekiyor
  • Claude’s ethics: dürüstlük, muhakeme ve ahlaki incelik vurgulanıyor; zarardan kaçınmak için değer yargısı ölçütleri sunuluyor
    • “Biyolojik silah saldırısına destek yasağı” gibi açık yasak maddeleri içeriyor
  • Being broadly safe: Etikten önce denetlenebilirliğin korunmasına öncelik veriyor; modelin arızalı davranışları veya yanlış yargıları önlemek için güvenliği sağlamayı amaçlıyor
  • Claude’s nature: Claude’un bilinç sahibi olma ihtimali ve ahlaki statüsü konusundaki belirsizliği kabul ediyor
    • Claude’un psikolojik istikrarı ve öz farkındalığının muhakeme ve güvenliği etkileyebileceğinden söz ediliyor

Sonuç ve Gelecek Planları

  • Anayasa, sürekli güncellenen canlı bir belge olarak görülüyor; hata düzeltme ve iyileştirme baştan kabul ediliyor
  • Hukuk, felsefe, ilahiyat, psikoloji gibi alanlardan dış uzman görüşleri yansıtılıyor ve gelecekte iş birliğinin genişletilmesi planlanıyor
  • Bazı özel amaçlı modeller, bu anayasanın kapsamı dışında tutuluyor ve onlar için ayrı değerlendirmeler yapılıyor
  • Anayasanın vizyonu ile modelin gerçek davranışı arasında farklar olabileceği kabul ediliyor; bunlar system card gibi belgelerle açıklanıyor
  • Anthropic, model hizalaması, kötüye kullanımın önlenmesi ve yorumlanabilirlik araştırmalarını birlikte yürütüyor; gelecekte yapay zekanın artan toplumsal etkisine hazırlanıyor
  • Bu anayasanın nihai hedefi, güçlü yapay zekanın insanlığın en iyi değerlerini hayata geçirmesine yardımcı olmak

Claude’s Constitution metninin tamamını okuyun - PDF & EPub olarak sunuluyor

1 yorum

 
GN⁺ 2026-01-22
Hacker News yorumları
  • Blog yazısındaki bir cümle takıldı aklıma
    “Özel amaçlı modeller bu anayasayla tamamen uyumlu değildir” kısmını okuyunca, acaba devlet kurumları kısıtlamasız model sürümleri mi kullanıyor diye düşündüm. Umarım yanılıyorumdur

    • Zaten Savunma Bakanlığı (DoD) için kısıtları daha gevşek bir sürüm sağlanıyor. İlgili haber için The Verge bağlantısı
      Kamu yararını savunan bir şirketin askeri kullanım için LLM satması, Palantir ile iş birliği yapması, neredeyse hiç araştırma yayımlamaması, açık ağırlıklı model sunmaması ve hatta açık modellere erişimi sınırlamak için lobi yapması ironik
    • Özel modeller mutlaka kötü amaçlar için olmak zorunda değil. Örneğin saldırı senaryosu üretim modeli, başka modellerin savunmasını doğrulamak için gerekli olabilir. Ben de güvenlik açıkları bulmak için saldırı kodu yazıyorum; böyle bir model sansürlenirse bu aslında işi zorlaştırır
    • Kişisel olarak, sansürsüz ham verilerle eğitilmiş modellerin en kullanışlı olduğunu düşünüyorum. İnsansı bir robot fazla zayıf olursa işe yaramaması gibi, ahlaken fazla yumuşatılmış bir AI da işlev açısından kısıtlanma riski taşır
    • Tersine, benim kullandığım HHS için Claude çok daha sıkı kilitlenmiş durumda
    • Sonuçta bu bir pazarlama metni. Adına “anayasa” demeleri özünü değiştirmiyor
  • Anthropic’in anayasasındaki en ironik şey, mutlak olarak yasaklanan davranışların yalnızca “dünyayı yok etme” ve “CSAM (çocuk cinsel istismar materyali) üretimi” olması
    Yani çocuğu öldürmek çeşitli maddelerde dolaylı olarak yasaklanmışken, belirli bir fanfic yazmak mutlak yasak gibi görünen bir dengesizlik var

    • Buna etik sistemi yerine bir pazarlama metni olarak bakarsanız anlaması daha kolay. “Dünyayı yok etme” güçlü bir imaj veriyor, “CSAM yasağı” da kamu kaygısını yatıştıran bir araç
    • Gerçekte Claude’un bir çocuğu öldürme fırsatı yok ama CSAM büyük bir marka riski. Bu sadece iş riski kaçınması
    • Telif hakkı filtresi önce devreye girdiği için böyle fanfic’ler zaten üretilmez
    • ABD içtihadına göre, kurgu biçimindeki çocuk pornografisi de bazı davalarda yasa dışı sayıldı. Bu yüzden AO3’teki sayısız fanfic teorik olarak suç kapsamına girebilir
    • Başlangıçta CSAM tanımı gerçek çocukların zarar gördüğü durumları ifade ediyordu; şimdi anlamı genişledi ve Claude anayasasında da basitçe tüm açık saçık ifadeleri yasaklayan bir biçimde kullanılıyor
  • Bu anayasanın tam olarak ne anlama geldiği kafa karıştırıcı
    Hukuki savunma metni mi, pazarlama için mi, yoksa sadece sistem prompt’unun ambalajı mı, emin değilim

    • Anayasanın aslında eğitim sürecinin tamamında kullanıldığı söyleniyor. Claude anayasaya bakarak sentetik veri üretiyor ve bu veriler daha sonra eğitimde yeniden kullanılıyor. İlgili makale için arXiv bağlantısı
    • Sonuçta bu bir davranış spesifikasyonu gibi. Üslubu konuşma diline yakın olduğu için model de doğal olarak daha iş birliğine açık ve insansı bir ton benimsiyor. Anthropic, Claude’a sadece bir “AI assistant” değil, bir kişilik gibi davranıyor gibi görünüyor
    • HAL 9000 örneğinde olduğu gibi, Claude muhtemelen çatışma durumlarında kontrolden çıkmaması için güvenlik > doğruluk > etik öncelik sırasıyla tasarlanmış
    • Muhtemelen self-distillation yaklaşımıyla, anayasayı içeren sürüm ile içermeyen sürümün çıktıları karşılaştırılıyor ve ilkinin davranışı ikincisine içselleştiriliyor
    • Sonuçta kilit nokta bunun bir eğitim belgesi olması. Sadece pazarlama değil
  • Mutlak ahlaki standartlara inanan biri olarak, bu anayasadaki “akışkan değerler” fikri beni endişelendiriyor
    “İyi değerleri” sabit kurallar yerine pratik bilgelikle tanımlamak, sonuçta nesnel hakikatten vazgeçmek demek

    • Ama bazıları nesnel ahlak ile mutlak hakikat arasında bağ kurmanın imkânsız olduğunu düşünüyor. Böyle evrensel bir standart henüz bulunmuş değil
    • Ahlak zamanla değişir. Kölelik, cinsel suçlar ve şiddet tasvirine yönelik algı son birkaç on yılda değişti. Hatta bu esneklik gerçekçi dürüstlük de olabilir
    • Yine de Claude’da mutlak yasaklar var. WMD, siber saldırılar, dünyanın sonu, CSAM gibi şeylere hiçbir gerekçeyle izin verilmiyor. Kusursuz kurallar koymak imkânsız olduğundan, en azından asgari mutlak çizgiler belirlenmiş
    • Ben de mutlak ahlaka inanıyorum ama pratikte bunun “gerçek ilgi ve pratik bilgelik”e vardığını düşünüyorum. Farklı değer sistemleri içinde ulaşılabilecek en iyi şey bu
    • Nesnel ahlakın var olabilmesi için fiziksel olarak tanımlanmış bir etik hesaplama sistemi gerekir. Henüz böyle bir şey yok ve insan sezgisi çok daha karmaşık
  • Bu, Anthropic’in “Don’t be evil” anı gibi görünüyor ama sonuçta düzenleme ihtiyacı ortadan kalkmıyor
    Şirketler zamanla iyi niyetten çok hissedar çıkarlarını öncelemeye başlar

    • Google bu sloganı kullandığında daha az tartışma vardı ama Anthropic zaten Palantir ile çalışıyor. İlgili haber için Axios bağlantısı
    • Yine de Anthropic, kamu yararına şirket (PBC) yapısını benimsedi ve amacı “insanlığın uzun vadeli çıkarı için yapay zeka geliştirmek” olan Long-Term Benefit Trust yapısını kurdu. İlgili bilgi için Wikipedia bağlantısı
    • Anayasada geçen “özel amaçlı modeller”in tam olarak neyi kastettiğini merak ediyorum. Sadece küçük araç modelleri mi, yoksa farklı değer sistemlerine sahip modeller mi, belli değil
    • Anthropic gerçekten de SB 53 düzenleme tasarısını destekledi. Resmî duyuru bağlantısı
    • Sorun “şu anda iyiler” olmaları değil; sorun, “kimsenin kendini kötü gördüğünü düşünmemesi”
  • Claude insan verileriyle eğitilirken ortaya çıkan çıktının ticari olarak tekelleştirilmesi adil değilmiş gibi geliyor
    Seinfeld’in ticarileştirilmesindeki dengesizlik örneğinde olduğu gibi, kullanıcılar da veri sağlayıcısı olarak adil muamele görmeli
    Açık kaynak AI’ın tek gerçekten adil model olduğunu düşünüyorum. Pratik değil belki ama Linux GPL modeli buna en çok yaklaşan şey

  • Ben bu anayasa ve model spesifikasyonundan sistem prompt tasarımı için bir şeyler öğreniyorum
    Bu tür belgeler sadece süs değil; modelin karakterini ve davranış tarzını şekillendirmede önemli

    • Ancak anayasa eğitim aşamasında kullanılıyor ve gerçek ürünün sistem prompt’u ayrı. Referans için resmî sistem prompt belgeleri daha uygun
  • Amanda Askell’in anayasanın yazım arka planını anlattığı bir YouTube röportajı var. Video bağlantısı

  • Anayasada ‘genuine’ kelimesi 43 kez geçiyor. Claude’un bu kelimeyi gereğinden sık kullanmasının nedeni bu olabilir

    • Muhtemelen anayasada yer aldığı için böyledir
    • Hatta bu tür kelime kullanımını filtre kurallarıyla kontrol edebilmek güzel olurdu. Örneğin “genuine” ya da “it’s not X, it’s Y” gibi kalıpları yasaklamak gibi
    • Ama tutarlı kelime kullanımı üslup açısından doğal da olabilir. Anayasayı yazan kişinin ille de eş anlamlılar sözlüğü karıştırması gerekmeyebilir
  • Anthropic sanki kendi kaybedeceği bir rekabeti teşvik ediyor
    Opus modeli yeterince güçlendiğinde kullanıcılar sonunda kendine yeten AI ajanlarına yönelecek
    Büyük AI şirketleri “AI her şeyi değiştirecek” diyor ama konu kendi konumları olunca bunu değiştirmek istememeleri bariz bir çelişki