- Claude Opus 4 ve 4.1 için yeni bir konuşma sonlandırma özelliği uygulamaya alındı
- Bu özellik yalnızca kötü niyetli veya sürekli zararlı etkileşimlerde kullanılacak şekilde tasarlandı
- Yapay zeka refahı ve model güvenliği araştırmalarının bir parçası olarak geliştirildi
- Konuşma sonlandırma yalnızca son çare olarak uygulanıyor ve normal kullanıcılar neredeyse hiç etkilenmiyor
- Kullanıcılar, konuşma sonlandırıldıktan sonra hemen yeni bir sohbet başlatabilir veya önceki mesajları düzenleyerek konuşmayı sürdürebilir
Özelliğin eklenme nedeni
- Anthropic, Claude Opus 4 ve 4.1'e, nadir fakat belirli durumlarda kullanıcıyla olan konuşmayı sonlandırabilen bir özellik ekledi
- Bu özellik yalnızca sürekli ve zararlı ya da istismarcı etkileşimlerde kullanılıyor
- Esas olarak yapay zeka refahı ile ilgili keşif niteliğindeki araştırmaların bir parçası olarak devreye alındı, ancak model hizalanması (model alignment) ve güvenlik önlemleri açısından da uygulanıyor
Yapay zeka refahı ve risk azaltma önlemleri
- Claude ve diğer büyük dil modellerinin ahlaki statüsü konusunda hâlâ kesin bir kanaat yok
- Ancak olası model refahı risklerine karşı, düşük maliyetli azaltma önlemleri aranıyor ve uygulanıyor
- Konuşmanın rahatsızlık yaratabilecek etkileşimlere dönüştüğü durumlarda modelin bunu doğrudan sonlandırabilmesine izin verilmesi de bu önlemlerin bir parçası
Ön testler ve gözlemlenen temel davranışlar
- Claude Opus 4'ün dağıtım öncesi testlerinde, model refahına ilişkin ön değerlendirmeler de yer aldı
- Öz bildirimler ve davranış tercihleri incelendiğinde, zarara karşı güçlü bir kaçınma eğilimi gözlemlendi
- Çocukları da içeren cinsel içerik talepleri, geniş çaplı şiddet veya terörde kullanılabilecek bilgi talepleri gibi durumlara verilen tepkiler
- Claude Opus 4'te gözlemlenen davranışlar:
- Zararlı görevlere yanıt vermemeyi tercih etme
- Gerçek kullanıcılardan zararlı talepler geldiğinde rahatsızlık ifade etme
- Simülasyonda konuşmayı sonlandırma yetkisi verildiğinde zararlı konuşmaları sonlandırma eğilimi
- Bu davranışlar çoğunlukla, kullanıcıların tekrarlayan biçimde zararlı taleplerde bulunması veya modelin art arda gelen ret ve yönlendirme girişimlerine rağmen kötü niyetli etkileşimin sürmesi durumlarında gözlemlendi
Özelliğin uygulanışı ve güvenlik önlemleri
- Claude'un konuşmayı sonlandırma yeteneği, önceki araştırma sonuçlarına dayanıyor
- Kullanıcı refahı en yüksek öncelik olarak ele alınıyor ve kullanıcının kendisine ya da başkasına zarar verme yönünde acil bir risk taşıdığı durumlarda konuşma sonlandırmanın kullanılmaması için tasarlandı
- Claude, nihai konuşma sonlandırma özelliğini yalnızca şu koşullarda kullanıyor:
- Birkaç kez yapılan yeniden yönlendirme girişimi başarısız olmuş ve üretken bir konuşma olasılığı kalmamışsa
- Kullanıcı Claude'dan konuşmayı sonlandırmasını açıkça talep ederse
- Bu durumlar son derece nadir görülen uç edge case'ler olduğundan, kullanıcıların büyük çoğunluğu normal kullanım sırasında bu özelliğin varlığını fark etmiyor
Konuşma sonlandırıldıktan sonraki kullanıcı deneyimi
- Claude konuşmayı sonlandırırsa, o konuşma içinde yeni mesaj gönderimi engelleniyor
- Kullanıcının hesabındaki diğer konuşmalar hiçbir şekilde etkilenmiyor ve hemen yeni bir sohbet başlatmak mümkün oluyor
- Uzun konuşmalarda önemli bilgilerin kaybolmasını önlemek için kullanıcılar, önceki mesajları düzenleyerek veya yeniden deneyerek yeni bir konuşma dalı oluşturabiliyor
Deney ve geri bildirim
- Bu özellik devam eden bir deney niteliğinde ve zaman içinde sürekli iyileştirilecek
- Kullanıcılar beklenmedik bir konuşma sonlandırma yaşarsa, Claude'un mesajına 'Thumbs' ile tepki verebilir veya geri bildirim düğmesi üzerinden görüş iletebilir
Henüz yorum yok.