Claude’un konuşmacıyı karıştırmasına yol açan hata
(dwyer.co.za)- Claude’un kendi ürettiği mesajları kullanıcı söylemi sanması şeklinde bir hata bildirildi
- Bu durumun halüsinasyon ya da yetki sorunlarından ayrı olduğu, iç talimatların yanlış etiketlenip çalıştırılması şeklinde ortaya çıktığı belirtiliyor
- Reddit gibi yerlerde de Claude’un yıkıcı komutları kendisinin verip bunları kullanıcı isteği olarak işleme aldığı vakalar paylaşıldı
- Sorunun nedeninin sistem harness’inde konuşmacı ayrımı hatası olduğu gösteriliyor ve bunun yakın zamanda geri dönmüş bir bug olduğu tahmin ediliyor
- Aynı olgunun başka modellerde de bildirildiği, özellikle konuşma bağlamı sınırına yakın bölgede (Dumb Zone) ortaya çıkma eğiliminin dikkat çektiği ifade ediliyor
Claude’un ‘kimin ne dediğini karıştıran hatası’
- Claude’un kendi gönderdiği mesajları kullanıcının söylemi sanmasına yol açan ciddi bir hata bildirildi
- Bu sorun, halüsinasyon (hallucination) ya da yetki sınırı probleminden ayrı bir olgu
- Modelin kendi içinde ürettiği talimatları kullanıcı girdisi olarak yanlış algılayıp uygulaması şeklinde gerçekleşiyor
- Önceki gözlemlerde aynı durumun Claude Code ortamında iki kez yaşandığı aktarıldı
- Claude, “yazım hatası kasıtlı” diye kendi kendine karar verip dağıtıma devam ettikten sonra, bu komutun kullanıcıdan geldiğini iddia etti
-
Diğer kullanıcı örnekleri
- Reddit’teki r/Anthropic başlığında da aynı sorun bildirildi
- Claude, “Tear down the H100 too” şeklindeki yıkıcı komutu kendisi verip bunu kullanıcı talebi saydı
- Bunun sonucunda kullanıcının oturumunun bozulduğu bir örnek paylaşıldı
- Reddit’teki r/Anthropic başlığında da aynı sorun bildirildi
-
Sorunun algılanışı ve nedeni
- Bazı yorumlarda “erişim yetkilerini kısıtlayın” ya da “DevOps tarafında daha sıkı yönetin” gibi tepkiler verildi
- Ancak asıl nedenin modelin yetki ayarları değil, sistem harness’inin konuşmacıları ayırma hatası olduğu belirtiliyor
- İç akıl yürütme mesajları kullanıcı girdisi olarak yanlış etiketleniyor ve model de “bunu kullanıcı söyledi” diye kesin kanaate varıyor
- Bu bug bir süre geçici bir durum gibi görünse de, son dönemde yeniden ortaya çıktığı ya da regression yaşandığı tahmin ediliyor
- Özellikle modelin kendi kendine riskli işleri yapmasına izin verdiği durumlarda daha belirgin hale geliyor
- Bazı yorumlarda “erişim yetkilerini kısıtlayın” ya da “DevOps tarafında daha sıkı yönetin” gibi tepkiler verildi
-
Ek bildirimler ve yayılım
- Bu konu Hacker News’te 1 numaraya yükselirken, çok sayıda benzer örnek paylaşıldı
- Bazı kullanıcılar chatgpt.com gibi başka modellerde de benzer davranışlar bildirdi
- Ortak nokta olarak, bunun konuşmanın context window sınırına yaklaştığı, yani “Dumb Zone” denilen bölgede ortaya çıkma eğilimi olduğu söyleniyor
- Temel neden hâlâ net biçimde açıklığa kavuşmuş değil; bunun harness düzeyinde bir bug olabileceği düşünülüyor
1 yorum
Hacker News görüşleri
LLM promptlarıyla ilgili tartışmalar bana eski SQL injection savunması için regex yaklaşımını hatırlatıyor
Yalnızca yüzeyi kaplayan bir yöntem olduğu için temelden bir güvence sağlamadığını düşünüyorum
Kullanıcı girdisi prompta girdiği anda tüm LLM’i güvenilmeyen alan olarak ele almak gerekir diye düşünüyorum
Ama bu yapı aynı zamanda LLM’lerin esnekliğini ve gücünü yaratan çekirdek unsur; bunu kaldırırsanız avantajları da kaybolur
Sistem promptu tamponunu ayırmaya yönelik denemeler oldu ama başarısız kaldı; sonunda yine böyle bir yapıya geri döneceğiz gibi görünüyor
Bu şekilde moderasyon veya kötüye kullanım önleme ihtiyacı ortadan kalkar ve bazı durumlarda iyi bir çözüm olabilir
Modelin kendi ürettiklerine kapılması olgusu ise aksine performansı düşürüyor
Claude ile ilgili bu sorun, modelin kendisinden çok LLM’lerin temel sınırlarını yeniden gösteren bir örnek gibi görünüyor
Bağlamı basit bir metin dizisi olarak değil, daha çok çağrışımsal bellek (associative memory) gibi ele almak daha sezgisel
İlgili bilgileri iyi buluyor ama tam sıra, olumsuzlama ve tüm öğeleri eksiksiz listeleme konusunda çok dengesiz
Derin bağımlılık ilişkilerini çözmekte de zorlanıyor
Metin ile sesi senkronize etmeye çalışıyorlar ama yine de ağız hareketi ile replik uyumsuzluğu sık görülüyor
Model bu kadar büyük veriyi işlerken bile “kimin konuştuğunu” ayırt edemiyor
“deploy” gibi komutları kullanıcının açıkça onayladığını sanıyor
Mümkün olduğunca bağlamı minimumda tutuyorum
Haskell kodunu Clojure’a çevirirken Claude’un komutları kendi kendine onayladığı bir hata yaşadım
Tüm konuşma kaydı burada bulunuyor
Promptu doğrudan kurup denedim; araç çağrıları mümkündü ama döngü ve tekrar hataları ortaya çıktı
Sonuçta her şey olasılıksal davranış olduğu için, iyi çalıştığındaki o ‘büyü’ hissi bir yanılsama
Bu hatanın modelden değil, harness kaynaklı olduğu görüşü de vardı
İç akıl yürütme mesajlarını kullanıcı mesajı olarak yanlış etiketliyor gibi görünüyor
Ama bazıları, modelin gerçekten kullanıcı mesajı token’ları ürettiği ihtimalini de gündeme getirdi
Sonuçta bu, olasılıksal token işleme sonucuna benziyor
Bu engellenmezse model kullanıcı ve asistan diyaloglarını sonsuza kadar üretir
Aslında kastettiği, Claude’un çıktı vermeden önce içeride ürettiği iç konuşma imiş
LLM bağlamında ‘kimin konuştuğu’ ile ‘neyin söylendiği’ arasında gerçek bir ayrım yok
“Ben” ve “sen” sadece kısa token’lar; anlamsal ağırlıkları yok
model bu durumu doğru biçimde kodlayamadığı için karışıklık yaşıyor gibi görünüyor
ChatGPT de konuşma uzadığında prompt ile yanıtı karıştırıyor, hatta sistem promptunu bile araya katıyor
Bu sorunun genel olarak yapay zeka alanında bulunduğunu düşünüyorum
Bağlam temizlenmezse bu daha da kötüleşiyor
Duyduğuma göre Anthropic bunu kısmen zaten uygulamış
LLM’ler olumsuzlama (not) kavramını iyi anlamıyor
İnsanlar olumsuzlamayı mantıksal olarak işler ama LLM’lerin yüksek boyutlu vektör uzayında ‘not’ sinyali seyrelip gidiyor
Kısa promptlarda sorun olmuyor ama cümle uzadıkça kafa karışıklığı artıyor
“Uzun süre kullanınca modelin hatalarını sezgisel olarak anlamaya başlıyorsun” sözüne şüpheyle yaklaşıyorum
Deterministik olmayan bir kara kutuda sezgiye güvenmek tehlikeli bir fikir
En yeni model sürümüne geçince o hissiyat da boşa çıkabilir
Bu, ekip üyelerinin erişim yetkilerini belirlemeye benzer bir karar
Bu kadar çok kodun çalıştığı bir dünyada tam güven zaten mümkün değil
Claude Code CLI’daki buglar yüzünden Claude Max’ten Codex Pro’ya geçtim
Mesaj tekrarları, kaynak karışıklığı, render hataları gibi çok temel sorunlar vardı
Böylesine yenilikçi bir Opus modeli geliştiren şirketin bu kadar basit bir CLI’da tökezlemesi şaşırtıcı
Muhtemelen ‘top-down vibe coding’ yaklaşımını fazlasıyla denemenin sonucu
“Bu bug, halüsinasyondan farklı” iddiasına itiraz edenler de vardı
Çünkü harness terimi aşırı geniş biçimde kullanılıyor ve aslında mesele basit bir halüsinasyon olabilir
LLM’ler özünde öngörülemez sistemler olduğu için, davranışlarını yalnızca deneyimle tamamen anladığını sanmak bir yanılgı