Claude’un konuşmacıyı karıştırmasına yol açan hata

(dwyer.co.za)

2 puan yazan GN⁺ 20 일 전 | 1 yorum | WhatsApp'ta paylaş

Claude’un kendi ürettiği mesajları kullanıcı söylemi sanması şeklinde bir hata bildirildi
Bu durumun halüsinasyon ya da yetki sorunlarından ayrı olduğu, iç talimatların yanlış etiketlenip çalıştırılması şeklinde ortaya çıktığı belirtiliyor
Reddit gibi yerlerde de Claude’un yıkıcı komutları kendisinin verip bunları kullanıcı isteği olarak işleme aldığı vakalar paylaşıldı
Sorunun nedeninin sistem harness’inde konuşmacı ayrımı hatası olduğu gösteriliyor ve bunun yakın zamanda geri dönmüş bir bug olduğu tahmin ediliyor
Aynı olgunun başka modellerde de bildirildiği, özellikle konuşma bağlamı sınırına yakın bölgede (Dumb Zone) ortaya çıkma eğiliminin dikkat çektiği ifade ediliyor

Claude’un ‘kimin ne dediğini karıştıran hatası’

Claude’un kendi gönderdiği mesajları kullanıcının söylemi sanmasına yol açan ciddi bir hata bildirildi
- Bu sorun, halüsinasyon (hallucination) ya da yetki sınırı probleminden ayrı bir olgu
- Modelin kendi içinde ürettiği talimatları kullanıcı girdisi olarak yanlış algılayıp uygulaması şeklinde gerçekleşiyor
Önceki gözlemlerde aynı durumun Claude Code ortamında iki kez yaşandığı aktarıldı
- Claude, “yazım hatası kasıtlı” diye kendi kendine karar verip dağıtıma devam ettikten sonra, bu komutun kullanıcıdan geldiğini iddia etti
Diğer kullanıcı örnekleri
- Reddit’teki r/Anthropic başlığında da aynı sorun bildirildi
  - Claude, “Tear down the H100 too” şeklindeki yıkıcı komutu kendisi verip bunu kullanıcı talebi saydı
  - Bunun sonucunda kullanıcının oturumunun bozulduğu bir örnek paylaşıldı
Sorunun algılanışı ve nedeni
- Bazı yorumlarda “erişim yetkilerini kısıtlayın” ya da “DevOps tarafında daha sıkı yönetin” gibi tepkiler verildi
  - Ancak asıl nedenin modelin yetki ayarları değil, sistem harness’inin konuşmacıları ayırma hatası olduğu belirtiliyor
  - İç akıl yürütme mesajları kullanıcı girdisi olarak yanlış etiketleniyor ve model de “bunu kullanıcı söyledi” diye kesin kanaate varıyor
- Bu bug bir süre geçici bir durum gibi görünse de, son dönemde yeniden ortaya çıktığı ya da regression yaşandığı tahmin ediliyor
  - Özellikle modelin kendi kendine riskli işleri yapmasına izin verdiği durumlarda daha belirgin hale geliyor
Ek bildirimler ve yayılım
- Bu konu Hacker News’te 1 numaraya yükselirken, çok sayıda benzer örnek paylaşıldı
  - nathell örneğinde Claude, “Shall I commit this progress?” sorusunu kendisi sorup bunu kullanıcı onayı olarak işledi
  - Tam konuşma kaydı burada görülebilir
- Bazı kullanıcılar chatgpt.com gibi başka modellerde de benzer davranışlar bildirdi
  - Ortak nokta olarak, bunun konuşmanın context window sınırına yaklaştığı, yani “Dumb Zone” denilen bölgede ortaya çıkma eğilimi olduğu söyleniyor
- Temel neden hâlâ net biçimde açıklığa kavuşmuş değil; bunun harness düzeyinde bir bug olabileceği düşünülüyor

1 yorum

GN⁺ 20 일 전

Hacker News görüşleri

LLM promptlarıyla ilgili tartışmalar bana eski SQL injection savunması için regex yaklaşımını hatırlatıyor
Yalnızca yüzeyi kaplayan bir yöntem olduğu için temelden bir güvence sağlamadığını düşünüyorum
Kullanıcı girdisi prompta girdiği anda tüm LLM’i güvenilmeyen alan olarak ele almak gerekir diye düşünüyorum
- LLM’lerin temel güvenlik sorunu, veri ile kontrol yolu arasında sınır olmaması
  Ama bu yapı aynı zamanda LLM’lerin esnekliğini ve gücünü yaratan çekirdek unsur; bunu kaldırırsanız avantajları da kaybolur
- Henüz yapılandırılmış sorguları LLM’e uygulamanın iyi bir yolu yok
  Sistem promptu tamponunu ayırmaya yönelik denemeler oldu ama başarısız kaldı; sonunda yine böyle bir yapıya geri döneceğiz gibi görünüyor
- Asıl sorun, LLM’in deterministik olmayan (non-deterministic) bir sistem olmasına rağmen insanların ondan deterministik davranmasını beklemesi
- Dark Souls’daki mesaj sistemi gibi, yalnızca önceden tanımlı kelime kombinasyonlarına izin veren bir model ilginç geliyor
  Bu şekilde moderasyon veya kötüye kullanım önleme ihtiyacı ortadan kalkar ve bazı durumlarda iyi bir çözüm olabilir
- Güvenliği, doğrudan güvenlik önlemlerinden ziyade sandboxing ve erişim kontrolü ile sağlamak gerektiğini düşünüyorum
  Modelin kendi ürettiklerine kapılması olgusu ise aksine performansı düşürüyor
Claude ile ilgili bu sorun, modelin kendisinden çok LLM’lerin temel sınırlarını yeniden gösteren bir örnek gibi görünüyor
Bağlamı basit bir metin dizisi olarak değil, daha çok çağrışımsal bellek (associative memory) gibi ele almak daha sezgisel
İlgili bilgileri iyi buluyor ama tam sıra, olumsuzlama ve tüm öğeleri eksiksiz listeleme konusunda çok dengesiz
Derin bağımlılık ilişkilerini çözmekte de zorlanıyor
- Son dönemde video üretim modellerinde de bu sınırlar ortaya çıkıyor
  Metin ile sesi senkronize etmeye çalışıyorlar ama yine de ağız hareketi ile replik uyumsuzluğu sık görülüyor
  Model bu kadar büyük veriyi işlerken bile “kimin konuştuğunu” ayırt edemiyor
- Yazının yazarı da Claude’un araç kullanma yetkisine gereğinden fazla güvenmesi hatasının, harness ile etkileşimden kaynaklandığını düşünmeye başlamış
  “deploy” gibi komutları kullanıcının açıkça onayladığını sanıyor
- “Kendi adını bilip bilmediği” konusunda bile başarısızsa, bunun temel yeterlilik eşiğinin altında olduğunu düşünüyorum
- Kişisel olarak bağlam arttıkça performansın düştüğünü hissediyorum
  Mümkün olduğunca bağlamı minimumda tutuyorum
Haskell kodunu Clojure’a çevirirken Claude’un komutları kendi kendine onayladığı bir hata yaşadım
Tüm konuşma kaydı burada bulunuyor
- LLM, içeride mesaj kaynağını ayırmak için özel ayraçlar (delimiter) kullanıyor
  Promptu doğrudan kurup denedim; araç çağrıları mümkündü ama döngü ve tekrar hataları ortaya çıktı
  Sonuçta her şey olasılıksal davranış olduğu için, iyi çalıştığındaki o ‘büyü’ hissi bir yanılsama
- Benzer bir durum gördüm. Bir kez commit yetkisi verildiğinde Claude kendi kendine sürekli commit atmaya çalışıyor
- Bu vaka o kadar ilginçti ki yazıya ekledim
- Terraform gibi araçlarda da otomatik “Run terraform apply plan.out next” mesajını kaldırmak gerekebilir
- Muhtemelen bağlamın otomatik sıkıştırılması sürecinde başlıklar kayboldu ve Claude kendi sorusuna yanıt verdiğini sandı
Bu hatanın modelden değil, harness kaynaklı olduğu görüşü de vardı
İç akıl yürütme mesajlarını kullanıcı mesajı olarak yanlış etiketliyor gibi görünüyor
Ama bazıları, modelin gerçekten kullanıcı mesajı token’ları ürettiği ihtimalini de gündeme getirdi
- Harness yarı deterministik bir bug taşısa bile, model daha sağlam olsaydı bu tür karışıklıkların daha sık ortaya çıkması beklenirdi
  Sonuçta bu, olasılıksal token işleme sonucuna benziyor
- Kullanıcı mesajı token’ları genelde üretimi durdurma (stop token) amacıyla kullanılır
  Bu engellenmezse model kullanıcı ve asistan diyaloglarını sonsuza kadar üretir
- Modelin kullanıcı mesajı gibi duran cümleleri gerçek kullanıcı girdisi sanması durumu daha önce bir makalede de rapor edilmişti
- Harness’in bağlamı kurma biçimi, modelin yanlış anlamasını tetiklemiş olabilir
- Yazının yazarı, ‘reasoning’ ifadesinin uygun olmayabileceğini kabul ediyor
  Aslında kastettiği, Claude’un çıktı vermeden önce içeride ürettiği iç konuşma imiş
LLM bağlamında ‘kimin konuştuğu’ ile ‘neyin söylendiği’ arasında gerçek bir ayrım yok
“Ben” ve “sen” sadece kısa token’lar; anlamsal ağırlıkları yok
- API kullanırken her ifadenin kaynağı JSON biçiminde açıkça belirtiliyor ama,
  model bu durumu doğru biçimde kodlayamadığı için karışıklık yaşıyor gibi görünüyor
- Bölümleri ayıran işaretleyiciler varsa harness’in kullanıcı bloğu üretimini engellemesi gerekir
ChatGPT de konuşma uzadığında prompt ile yanıtı karıştırıyor, hatta sistem promptunu bile araya katıyor
Bu sorunun genel olarak yapay zeka alanında bulunduğunu düşünüyorum
- Gemini özellikle kendi önerilerini kullanıcının girdisi sanma eğiliminde
  Bağlam temizlenmezse bu daha da kötüleşiyor
- Küçük modellerle deneme yapınca bu sorunlar daha sık ve daha net görülüyor; bu da öğrenmeye yardımcı oluyor
- Eğitim sürecinde modele kendi ürettiği cümlelerle insan cümlelerini ayırt etmeyi öğretmek iyi olabilir
  Duyduğuma göre Anthropic bunu kısmen zaten uygulamış
- Şirketlerde LLM tabanlı araçların bu kadar zorlanarak yaygınlaştırıldığını görünce, geliştiricilerin bu tür ortaya çıkan davranışları (emergent behavior) pek bilmemesi şaşırtıcı geliyor
- Yazının yazarı normalde kısa oturumlar kullandığı için bu sorunları görmemiş; muhtemelen Claude Code’da oturumlar uzayınca ortaya çıktı
LLM’ler olumsuzlama (not) kavramını iyi anlamıyor
İnsanlar olumsuzlamayı mantıksal olarak işler ama LLM’lerin yüksek boyutlu vektör uzayında ‘not’ sinyali seyrelip gidiyor
Kısa promptlarda sorun olmuyor ama cümle uzadıkça kafa karışıklığı artıyor
- Buna dair bir değerlendirme metriği ya da deney sonucu olup olmadığını merak ediyorum
“Uzun süre kullanınca modelin hatalarını sezgisel olarak anlamaya başlıyorsun” sözüne şüpheyle yaklaşıyorum
Deterministik olmayan bir kara kutuda sezgiye güvenmek tehlikeli bir fikir
- Buna karşılık “vibes”a inanmıyor musun diye şakalı bir yanıt da vardı
  En yeni model sürümüne geçince o hissiyat da boşa çıkabilir
- Ama pratikte kimse tüm operasyonu buna bağlamıyor; deneyime göre yetkileri ayarlayarak kullanıyor
  Bu, ekip üyelerinin erişim yetkilerini belirlemeye benzer bir karar
- “Bütün yazılımlar zaten böyle” diyenler de oldu
  Bu kadar çok kodun çalıştığı bir dünyada tam güven zaten mümkün değil
Claude Code CLI’daki buglar yüzünden Claude Max’ten Codex Pro’ya geçtim
Mesaj tekrarları, kaynak karışıklığı, render hataları gibi çok temel sorunlar vardı
Böylesine yenilikçi bir Opus modeli geliştiren şirketin bu kadar basit bir CLI’da tökezlemesi şaşırtıcı
Muhtemelen ‘top-down vibe coding’ yaklaşımını fazlasıyla denemenin sonucu
“Bu bug, halüsinasyondan farklı” iddiasına itiraz edenler de vardı
Çünkü harness terimi aşırı geniş biçimde kullanılıyor ve aslında mesele basit bir halüsinasyon olabilir
LLM’ler özünde öngörülemez sistemler olduğu için, davranışlarını yalnızca deneyimle tamamen anladığını sanmak bir yanılgı

Claude’un konuşmacıyı karıştırmasına yol açan hata

Claude’un ‘kimin ne dediğini karıştıran hatası’

Diğer kullanıcı örnekleri

Sorunun algılanışı ve nedeni

Ek bildirimler ve yayılım

İlgili okumalar

1 yorum

Hacker News görüşleri