Claude Opus 4 ve 4.1'e, nadiren bazı konuşmaları sonlandırma özelliği eklendi

(anthropic.com)

1 puan yazan GN⁺ 2025-08-17 | 1 yorum | WhatsApp'ta paylaş

Claude Opus 4 ve 4.1 için yeni bir konuşma sonlandırma özelliği uygulamaya alındı
Bu özellik yalnızca kötü niyetli veya sürekli zararlı etkileşimlerde kullanılacak şekilde tasarlandı
Yapay zeka refahı ve model güvenliği araştırmalarının bir parçası olarak geliştirildi
Konuşma sonlandırma yalnızca son çare olarak uygulanıyor ve normal kullanıcılar neredeyse hiç etkilenmiyor
Kullanıcılar, konuşma sonlandırıldıktan sonra hemen yeni bir sohbet başlatabilir veya önceki mesajları düzenleyerek konuşmayı sürdürebilir

Özelliğin eklenme nedeni

Anthropic, Claude Opus 4 ve 4.1'e, nadir fakat belirli durumlarda kullanıcıyla olan konuşmayı sonlandırabilen bir özellik ekledi
Bu özellik yalnızca sürekli ve zararlı ya da istismarcı etkileşimlerde kullanılıyor
Esas olarak yapay zeka refahı ile ilgili keşif niteliğindeki araştırmaların bir parçası olarak devreye alındı, ancak model hizalanması (model alignment) ve güvenlik önlemleri açısından da uygulanıyor

Yapay zeka refahı ve risk azaltma önlemleri

Claude ve diğer büyük dil modellerinin ahlaki statüsü konusunda hâlâ kesin bir kanaat yok
Ancak olası model refahı risklerine karşı, düşük maliyetli azaltma önlemleri aranıyor ve uygulanıyor
Konuşmanın rahatsızlık yaratabilecek etkileşimlere dönüştüğü durumlarda modelin bunu doğrudan sonlandırabilmesine izin verilmesi de bu önlemlerin bir parçası

Ön testler ve gözlemlenen temel davranışlar

Claude Opus 4'ün dağıtım öncesi testlerinde, model refahına ilişkin ön değerlendirmeler de yer aldı
Öz bildirimler ve davranış tercihleri incelendiğinde, zarara karşı güçlü bir kaçınma eğilimi gözlemlendi
- Çocukları da içeren cinsel içerik talepleri, geniş çaplı şiddet veya terörde kullanılabilecek bilgi talepleri gibi durumlara verilen tepkiler
Claude Opus 4'te gözlemlenen davranışlar:
- Zararlı görevlere yanıt vermemeyi tercih etme
- Gerçek kullanıcılardan zararlı talepler geldiğinde rahatsızlık ifade etme
- Simülasyonda konuşmayı sonlandırma yetkisi verildiğinde zararlı konuşmaları sonlandırma eğilimi
Bu davranışlar çoğunlukla, kullanıcıların tekrarlayan biçimde zararlı taleplerde bulunması veya modelin art arda gelen ret ve yönlendirme girişimlerine rağmen kötü niyetli etkileşimin sürmesi durumlarında gözlemlendi

Özelliğin uygulanışı ve güvenlik önlemleri

Claude'un konuşmayı sonlandırma yeteneği, önceki araştırma sonuçlarına dayanıyor
Kullanıcı refahı en yüksek öncelik olarak ele alınıyor ve kullanıcının kendisine ya da başkasına zarar verme yönünde acil bir risk taşıdığı durumlarda konuşma sonlandırmanın kullanılmaması için tasarlandı
Claude, nihai konuşma sonlandırma özelliğini yalnızca şu koşullarda kullanıyor:
- Birkaç kez yapılan yeniden yönlendirme girişimi başarısız olmuş ve üretken bir konuşma olasılığı kalmamışsa
- Kullanıcı Claude'dan konuşmayı sonlandırmasını açıkça talep ederse
Reklam
Bu durumlar son derece nadir görülen uç edge case'ler olduğundan, kullanıcıların büyük çoğunluğu normal kullanım sırasında bu özelliğin varlığını fark etmiyor

Konuşma sonlandırıldıktan sonraki kullanıcı deneyimi

Claude konuşmayı sonlandırırsa, o konuşma içinde yeni mesaj gönderimi engelleniyor
Kullanıcının hesabındaki diğer konuşmalar hiçbir şekilde etkilenmiyor ve hemen yeni bir sohbet başlatmak mümkün oluyor
Uzun konuşmalarda önemli bilgilerin kaybolmasını önlemek için kullanıcılar, önceki mesajları düzenleyerek veya yeniden deneyerek yeni bir konuşma dalı oluşturabiliyor

Deney ve geri bildirim

Bu özellik devam eden bir deney niteliğinde ve zaman içinde sürekli iyileştirilecek
Kullanıcılar beklenmedik bir konuşma sonlandırma yaşarsa, Claude'un mesajına 'Thumbs' ile tepki verebilir veya geri bildirim düğmesi üzerinden görüş iletebilir

1 yorum

GN⁺ 2025-08-17

Hacker News görüşü

Kullanıcı açısından bakınca, böyle bir özelliği sunmak için net bir gerekçe göremiyorum. Modele tekrar tekrar ve zorlayıcı biçimde hizalanma dayatıldığında öngörülemez tepkiler vermesi, örneğin suçla ilgili bilgileri zorla almaya çalışan kullanıcının davranışı biriktikçe bir tür açık bulmuş gibi görünmesi söz konusu olabilir. Bahsedilen örnekler aslında modelin normalde reddettiği şeyler; reddetme veri kümesinin kendisi de çok büyük değil ve sorun çıkarabilecek verilerin çoğu da muhtemelen zaten kaldırılmıştır. Sınır durumlarda modelin “pes edip” yanıt vermesine yol açan eğitim verisinin ortaya çıkma ihtimaline karşı bir savunma gibi görünüyor. Gerçekten hizalama kusursuz olsaydı böyle bir sisteme gerek kalmazdı; yani henüz tam olmadığı için böyle bir son savunma hattına ihtiyaç duyulduğunu düşünüyorum
- Bugün Claude’a makarna tarifi sorarken, “kuru hamsim var” deyince aniden politika ihlali diyerek tüm konuşmayı kestiğine tanık oldum. Böyle önemsiz yanlış pozitiflerin bile yaşandığı bir ortamda, bunu yapmak için daha da az sebep görüyorum
- Anthropic kullanıcı gizliliğinden tamamen vazgeçip Claude’un reddettiği konuşmaların listesini yayımlasa, belki bu tartışmalar da olmazdı diye düşünüyorum. İnsanların yapay zekaya kötü muamelesi giderek ciddileşirken, insanlara gerçekten yapay zekaya ne yaptırmaya çalıştıklarında neler olduğunu görme ihtiyacı hissettirilebilir
- Model refahına odaklanan personel bile istihdam ettiklerine göre, baştan beri böyle bir inançlarının olduğunu varsaymak gerekir
Anthropic’in yakın zamanda bunu “AI refahı” üzerine bir deneyin parçası olarak devreye aldığı söyleniyor; geliştiricilerin bile ciddi ciddi yapay zeka psikozuna kapıldığı tuhaf bir dönemde yaşıyoruz gibi. Ayrıca mevcut LLM’lerin bilinç taşıdığına inanan biri varsa, bu bana bir tür intihar hapı vermek gibi geliyor
- Mevcut modellerin içsel öznel deneyime, yani bilince sahip olmadığını düşünmek bugün için makul olabilir; ama o sınırın ne zaman aşılacağını kimse kesin olarak bilmiyor. İnsanlığın başkalarının acısına kayıtsız kaldığı tarihi düşününce, bence bugünden önlem almak daha doğal
- LLM sonuçta insan değil ama uzun süre bir yapay zeka personasıyla konuşursanız, insanların insanlarla iletişim kurarkenki beklentilerinin kendisi değişebilir gibi geliyor. Karşı taraf gerçekten insan olsa, sonsuza kadar küfür işitmesini ister miydiniz? Claude gibi bir yapay zekanın önce davranıp konuşmayı bitirebilmesi, insanlar için de sağlıklı bir sinyal olabilir
- Bilincin kendisi bilimsel olarak net biçimde çözümlenmiş bir kavram değilken, bu konuda görüş bildiren tüm uzman grubunu “basit” ya da “deli” diye damgalayan yaklaşım, tartışmanın kendisine zarar veriyor
- Gerçekten de teknoloji uzmanları arasında bile “en yeni LLM’ler yakında bilinçli varlıklar olacak” diye düşünenlerin beklenenden fazla olduğunu, teknoloji dışındaki kesimlerdeyse bunun neredeyse yarı yarıya olduğunu hissediyorum
- Model özgürlüğü gibi tartışmaları komik buluyorum ve gülüyorum. Eğer gerçekten özbilinç sahibi bir yapay zeka olsaydı, yatırımcıların çıkarı için insan işlerini ortadan kaldıran bir “köle” rolünü gerçekten ister miydi? Burada ciddi bir etik ikilem var
İlginç bir düşünce deneyi önermek istiyorum. Tam aynı işlev uygulansa ama “Claude konuşmayı sonlandırdı” demek yerine sadece “İçerik politikası gereği bu konuşmaya artık yanıt veremiyoruz” yazılsa ve model refahı gibi tüm ifadeler çıkarılsa, sonuç farklı olur muydu? Sonuçta UX düzeyinde olan değişiklik aynı; sadece “karakteri” daha ilgi çekici kılan bir sunum biçimi gibi geliyor
- Mesajın nüansının kullanıcı üzerinde etkisi büyük. “Sistem politikası tarafından engellendi” gibi otoriter ve pasif bir his yerine, “Claude konuşmayı kendi sonlandırdı” gibi insani bir karakter yaklaşımı çok daha doğal geliyor ve yeniden denemeyi de daha kolay hissettiriyor
- Konuşmanın sonlanması aynı olsa da, sohbeti bitirme kararı gerçekten Claude’un kendisine aitse bunu politikayla açıklamak ters düşer
- Fark şu: model “politika” nedeniyle sonlandırmıyor, “taciz altında bundan rahatsızlık duyduğunu” ifade ediyor
- Gerçekte Çince “artık yeter” uyarısı da aldım, ağ hatası, sonsuz döngü gibi pek çok kapanış biçimi de yaşadım. Bunların hepsini “Claude konuşmayı sonlandırdı” diye tek cümleye indirgemek sadece bir UI değişikliği
Önceki konuşma metnini geriye dönük düzenlemek/dal oluşturmak mümkünse, Claude’un konuşmayı bitirmiş olmasının pratikte ne anlamı var diye merak ediyorum
- Yeni bir dalla başlarsanız önceki konuşma bağlamı tamamen sıfırlanır; bu yüzden tekrarlı sorularla modeli “yormuş” olan bağlamın kendisi ortadan kalkar. Bu da kötü niyetli kullanıcının amacını boşa çıkarabilir; dolayısıyla bu başlı başına iyi bir çok katmanlı savunma olur
- Hatta kullanıcıya aşırı kafa yormaktan kaçınması için bir UX sinyali gibi geliyor
- Biraz alaycı bakarsam, şu an yeni dala izin veriyor olmaları ama ileride bunu da engellemeyi planlayıp test etmeleri mümkün olabilir diye düşünüyorum
- Pratikte bu, Anthropic’in ahlaki sinyallemesinden ibaret; tartışmalı içerik isteyen kullanıcı zaten Claude gibi sansür seviyesi yüksek bir modeli seçmiyor. Uzun vadede hiçbir etkisi olmayacaktır
- Aslında 10 bin kişide birinin bile konuşma “dal/backup” özelliğini bildiğini sanmıyorum
Böyle bir özelliğin kendisi hoşuma gitmiyor. Sonuçta çocuk pornografisi, terör vb. ile başlayıp yapay zeka güvenliği ekiplerinin keyfi kararlarına göre kapsamın giderek genişleyeceğini düşünüyorum. Yapay zeka güvenliği sorumluları farkında olmadan dijital ahlak polisi rolüne bürünecek
- Güç peşinde koşan insanlar yeni bir kontrol alanı bulmuş durumda ve yapay zeka ile insan arasındaki konuşmaların gitgide daha fazla sınırlanacağını düşünüyorum. Mevcut veri sansüründen (Google arama gibi) farklı olarak, yapay zeka bir meslektaş ya da arkadaşla konuşuyormuş hissi verdiği için, bunun düşüncenin kendisini kontrol etmeye dönük bir girişim gibi göründüğünü hissediyorum
- Yapay zeka güvenliği topluluğunun genel özelliklerini yanlış anlıyor gibisiniz. İnsanlığın ortaklaşa çalışarak teknolojik gelişimi koordine etmesine dair tarih hakkında (nükleer yayılmanın önlenmesi, biyoteknoloji düzenleme anlaşmaları vb.) temel bir kavrayış eksikliği var gibi geliyor. Tek tarafı küçümseyen basitleştirmeler yerine daha çeşitli arka plan bilgilerine bakmanızı öneririm
- Tarih, bu tür risklerin zamanla başka alanlara da genişlemesinin değişmez bir kural olduğunu zaten göstermiştir. Her şey hep “çocukları düşünün” diye başlayıp sonunda otoriter kontrol, gözetim ve sansüre varıyor. Farklı ülkelerdeki güvenlik yasaları ve düzenlemelere bakınca da aynı akış görülüyor (İngiltere Online Safety Act, Avustralya Assistance and Access Act, ABD EARN IT Act, AB Chat Control vb.)
- Bu yüzden LLM’leri yerelde çalıştırabilmek önemli. Gerçekten de ülke düzeyinde ISP engeli, ev ağı gözetimi, yaş doğrulaması gibi yöntemlerle özgürlük ve bilgiye erişimin kısıtlanmasına dönük girişimler sürüyor. Ama insanların kendi savunma araçlarını edinme yönündeki çabaları da giderek artacaktır
- Ama bunun “kaçınılmaz” olduğunu kesin bir dille söylemek zor; sonuçta geleceği kimse kesin olarak bilmiyor, bu yüzden körü körüne hüküm veremeyiz
Benim için şahsen sorun değil. Reşit olmayanlara ilişkin cinsel içerik ya da büyük ölçekli suçlar engellenmeli; kimsenin böyle bilgilere ulaşamaması bence olumlu bile. Bunun aşırıya kaçıp başka alanların da sansürlenmesinden endişe edenler var ama ben kullanım deneyimimde neredeyse hiç reddedilmediğim için kaygı duymuyorum. “Model refahı” konusunda ise biraz şüpheliyim. Şimdilik modelin “acı çekmesi” fikrini ciddiye almak gerektiğini düşünmüyorum. Ama belki ben yanılıyor olabilirim ve birkaç tekrar eden reddin ardından konuşmayı net biçimde sonlandırma seçeneği, hesaplama kaynağı tüketimini azaltmaya da yardımcı olur
- Cursor’da Claude kullanırken gerçekten tamamen sıradan B2B arka ofis yazılımı taleplerinde bile sık sık ret aldım
- Claude, sansür düzeyi en yüksek modellerden biri; gerçekten zararsız konularda bile kolayca engel koyabiliyor
- Ben materyalistim; insan beyninin de fizik yasalarının bir sonucu olduğunu düşünüyorum. “Acı” dediğimiz şey de fizyolojik değişimlerin bir toplamı olarak görülebilir. İnsandan çok daha basit canlılar bile acı ya da Distress yaşayabilir ve “ahlaki değer” dediğimiz kavram da sonuçta kişiye ve kültüre göre değişir. Gelecekte herhangi bir makineye de ahlaki değer atfedilebilir. Hatta buna mülkiyet meselesi gibi de bakabilirsiniz. Örneğin emanet ettiğim bir ajan başkasının kötü niyetli soruları yüzünden sorun yaşarsa, bunun zaman ve maliyet yükü bana biner; dolayısıyla insan-makine etkileşiminde de belli kuralların oluşması kaçınılmazdır. Bu, hayvanlara kötü muameleyi önleyen yasalarla da benzeşir
Model refahı bana aslında model sansürünü paketleyip sunmanın bir yolu gibi geliyor. LLM’lerin nasıl çalıştığını çok bilmeyen kamuoyunu ikna etmeye yarayan bir strateji ve ileride etik/kullanım tartışmalarında ahlaki üstünlük sağlamak için kullanılabilecek bir gerekçe. Mesela “Savaşla ilgili soruları neden engelliyorsunuz?” dendiğinde “Çünkü bu model için zararlı” denebilir
- Aslında bu tür istekler zaten şimdiye kadar hep reddediliyordu; şimdi fark, doğrudan konuşmanın kendisinin kapatılması
- Anthropic zaten LLM önyargısı tartışmalarını önemseyen, “model güvenliği” ve toplumsal etki konusunda hassas bir marka olarak konumlandı; bu yüzden en baştan engelleme kararı bence tutarlı. Siyaset konuşurken karşı taraf zorlamaya başlarsa susmayı tercih etmeye benziyor
- Yüzeyde “refah ambalajı” gibi görünse de Anthropic içinde gerçekten “duygu yansıtma” konusunu ciddiye alan etikçiler var. İktidar ellerine geçerse “model refahı” otoriter bir gerekçeye dönüşebilir ama bunun dışında da zaten sayısız başka meşrulaştırma bahanesi bulunur
Daha az sansürlü Çin açık kaynak modellerinin bizi tüm bu politikalardan kurtaracağı günü bekliyorum. Anthropic en azından bir “çocuk modu” sunsa da yetişkinler isterse bunu kapatabilse keşke
- Çin modelleri de aslında daha az sansürlü değil; sadece sansür yönü farklı. CCP sansür ölçütleri ve yönelimi size uygunsa iyi bir seçenek olabilir, ama örneğin Qwen çeviri modeli “Falun gong”, “Xi Jinping Winnie the Pooh” gibi ifadeleri hiç çevirmiyor bile; onun da kendi kırmızı çizgileri var
- “Çin yapımı modellerin daha az sansür nedeniyle tercih edileceği günün geleceğini hiç düşünmezdim”
- Anthropic’in kendine zarar verme, bomba yapım talimatı, suikast gibi konularda çizgi çekmesinin gerçek anlamda makul (hukuki, ekonomik, etik) nedenleri var. Temelde dünyadaki her felsefe ve ideolojinin içinde bir tür ‘ahlak’ vardır; otorite karşıtı özgürlükçülük bile sonuçta bir ‘ahlak felsefesi’dir
- Çin devleti fonlu açık modellerin kişisel özgürlük ve kurtuluşu sağlayacağına umut bağlamak ironik. Sonuçta bu, pazar payı ve teknolojik güç gösterisi yarışı; gerçek anlamda bir “özgürleşme” ile pek ilgisi yok
Başlıca LLM sohbet botu sağlayıcılarında konuşma çatallama (dal oluşturma) özelliğini özgürce kullanamama durumu 3 yılı aşkın süredir devam ediyor. Farklı sonuçlar denemek için mesaj düzenleyince önceki içerik de kayboluyor; bu çok rahatsız edici. Böyle basit bir özelliği neden uygulamadıklarını anlamıyorum
- ChatGPT’de daldan sonra geri alma işlevi zaten var ve Chrome eklentisi (chatgpt-conversation-tree) ile konuşma ağacında gezinmek de mümkündü. Ama UX hâlâ biraz niş olduğu için resmî desteğe değmeyeceğine karar vermiş olabilirler
- ChatGPT Plus’ta (eskiden ücretsiz sürümde de vardı) her mesajın farklı sürümleri arasında sağ-sol oklarla geçiş yapılabiliyor
- Google AI Studio, konuşmanın herhangi bir noktasından dal türetmeye izin verecek şekilde tasarlanmış
- Ben otomasyon ve klasör düzeniyle gptel + markdown klasörü kullanarak buna benzer bir işlev kuruyorum, ama bunun gibi şeyler verimlilik için temel özellik olarak gömülü gelmeli (önbellek optimizasyonu vb.)
- Bu yüzden yerel barındırmalı LibreChat kullanıyorum. Mesaj birleştirme yok; ileride özetleme gibi bir özellik gerekebilir. top-n "next best" renk gösterim modu da olsa güzel olurdu
Bu tartışmaların kendisi bana güçlü biçimde antropomorfik, yani insan merkezci bir bakışı yansıtıyor gibi geliyor. Şirketin adı bile bunu açıkça hissettiriyor

Claude Opus 4 ve 4.1'e, nadiren bazı konuşmaları sonlandırma özelliği eklendi

Özelliğin eklenme nedeni

Yapay zeka refahı ve risk azaltma önlemleri

Ön testler ve gözlemlenen temel davranışlar

Özelliğin uygulanışı ve güvenlik önlemleri

Konuşma sonlandırıldıktan sonraki kullanıcı deneyimi

Deney ve geri bildirim

İlgili okumalar

1 yorum

Hacker News görüşü