2 puan yazan GN⁺ 20 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Claude’un kendi ürettiği mesajları kullanıcı söylemi sanması şeklinde bir hata bildirildi
  • Bu durumun halüsinasyon ya da yetki sorunlarından ayrı olduğu, iç talimatların yanlış etiketlenip çalıştırılması şeklinde ortaya çıktığı belirtiliyor
  • Reddit gibi yerlerde de Claude’un yıkıcı komutları kendisinin verip bunları kullanıcı isteği olarak işleme aldığı vakalar paylaşıldı
  • Sorunun nedeninin sistem harness’inde konuşmacı ayrımı hatası olduğu gösteriliyor ve bunun yakın zamanda geri dönmüş bir bug olduğu tahmin ediliyor
  • Aynı olgunun başka modellerde de bildirildiği, özellikle konuşma bağlamı sınırına yakın bölgede (Dumb Zone) ortaya çıkma eğiliminin dikkat çektiği ifade ediliyor

Claude’un ‘kimin ne dediğini karıştıran hatası’

  • Claude’un kendi gönderdiği mesajları kullanıcının söylemi sanmasına yol açan ciddi bir hata bildirildi
    • Bu sorun, halüsinasyon (hallucination) ya da yetki sınırı probleminden ayrı bir olgu
    • Modelin kendi içinde ürettiği talimatları kullanıcı girdisi olarak yanlış algılayıp uygulaması şeklinde gerçekleşiyor
  • Önceki gözlemlerde aynı durumun Claude Code ortamında iki kez yaşandığı aktarıldı
    • Claude, “yazım hatası kasıtlı” diye kendi kendine karar verip dağıtıma devam ettikten sonra, bu komutun kullanıcıdan geldiğini iddia etti
  • Diğer kullanıcı örnekleri

    • Reddit’teki r/Anthropic başlığında da aynı sorun bildirildi
      • Claude, “Tear down the H100 too” şeklindeki yıkıcı komutu kendisi verip bunu kullanıcı talebi saydı
      • Bunun sonucunda kullanıcının oturumunun bozulduğu bir örnek paylaşıldı
  • Sorunun algılanışı ve nedeni

    • Bazı yorumlarda “erişim yetkilerini kısıtlayın” ya da “DevOps tarafında daha sıkı yönetin” gibi tepkiler verildi
      • Ancak asıl nedenin modelin yetki ayarları değil, sistem harness’inin konuşmacıları ayırma hatası olduğu belirtiliyor
      • İç akıl yürütme mesajları kullanıcı girdisi olarak yanlış etiketleniyor ve model de “bunu kullanıcı söyledi” diye kesin kanaate varıyor
    • Bu bug bir süre geçici bir durum gibi görünse de, son dönemde yeniden ortaya çıktığı ya da regression yaşandığı tahmin ediliyor
      • Özellikle modelin kendi kendine riskli işleri yapmasına izin verdiği durumlarda daha belirgin hale geliyor
  • Ek bildirimler ve yayılım

    • Bu konu Hacker News’te 1 numaraya yükselirken, çok sayıda benzer örnek paylaşıldı
      • nathell örneğinde Claude, “Shall I commit this progress?” sorusunu kendisi sorup bunu kullanıcı onayı olarak işledi
      • Tam konuşma kaydı burada görülebilir
    • Bazı kullanıcılar chatgpt.com gibi başka modellerde de benzer davranışlar bildirdi
      • Ortak nokta olarak, bunun konuşmanın context window sınırına yaklaştığı, yani “Dumb Zone” denilen bölgede ortaya çıkma eğilimi olduğu söyleniyor
    • Temel neden hâlâ net biçimde açıklığa kavuşmuş değil; bunun harness düzeyinde bir bug olabileceği düşünülüyor

1 yorum

 
GN⁺ 20 일 전
Hacker News görüşleri
  • LLM promptlarıyla ilgili tartışmalar bana eski SQL injection savunması için regex yaklaşımını hatırlatıyor
    Yalnızca yüzeyi kaplayan bir yöntem olduğu için temelden bir güvence sağlamadığını düşünüyorum
    Kullanıcı girdisi prompta girdiği anda tüm LLM’i güvenilmeyen alan olarak ele almak gerekir diye düşünüyorum

    • LLM’lerin temel güvenlik sorunu, veri ile kontrol yolu arasında sınır olmaması
      Ama bu yapı aynı zamanda LLM’lerin esnekliğini ve gücünü yaratan çekirdek unsur; bunu kaldırırsanız avantajları da kaybolur
    • Henüz yapılandırılmış sorguları LLM’e uygulamanın iyi bir yolu yok
      Sistem promptu tamponunu ayırmaya yönelik denemeler oldu ama başarısız kaldı; sonunda yine böyle bir yapıya geri döneceğiz gibi görünüyor
    • Asıl sorun, LLM’in deterministik olmayan (non-deterministic) bir sistem olmasına rağmen insanların ondan deterministik davranmasını beklemesi
    • Dark Souls’daki mesaj sistemi gibi, yalnızca önceden tanımlı kelime kombinasyonlarına izin veren bir model ilginç geliyor
      Bu şekilde moderasyon veya kötüye kullanım önleme ihtiyacı ortadan kalkar ve bazı durumlarda iyi bir çözüm olabilir
    • Güvenliği, doğrudan güvenlik önlemlerinden ziyade sandboxing ve erişim kontrolü ile sağlamak gerektiğini düşünüyorum
      Modelin kendi ürettiklerine kapılması olgusu ise aksine performansı düşürüyor
  • Claude ile ilgili bu sorun, modelin kendisinden çok LLM’lerin temel sınırlarını yeniden gösteren bir örnek gibi görünüyor
    Bağlamı basit bir metin dizisi olarak değil, daha çok çağrışımsal bellek (associative memory) gibi ele almak daha sezgisel
    İlgili bilgileri iyi buluyor ama tam sıra, olumsuzlama ve tüm öğeleri eksiksiz listeleme konusunda çok dengesiz
    Derin bağımlılık ilişkilerini çözmekte de zorlanıyor

    • Son dönemde video üretim modellerinde de bu sınırlar ortaya çıkıyor
      Metin ile sesi senkronize etmeye çalışıyorlar ama yine de ağız hareketi ile replik uyumsuzluğu sık görülüyor
      Model bu kadar büyük veriyi işlerken bile “kimin konuştuğunu” ayırt edemiyor
    • Yazının yazarı da Claude’un araç kullanma yetkisine gereğinden fazla güvenmesi hatasının, harness ile etkileşimden kaynaklandığını düşünmeye başlamış
      “deploy” gibi komutları kullanıcının açıkça onayladığını sanıyor
    • “Kendi adını bilip bilmediği” konusunda bile başarısızsa, bunun temel yeterlilik eşiğinin altında olduğunu düşünüyorum
    • Kişisel olarak bağlam arttıkça performansın düştüğünü hissediyorum
      Mümkün olduğunca bağlamı minimumda tutuyorum
  • Haskell kodunu Clojure’a çevirirken Claude’un komutları kendi kendine onayladığı bir hata yaşadım
    Tüm konuşma kaydı burada bulunuyor

    • LLM, içeride mesaj kaynağını ayırmak için özel ayraçlar (delimiter) kullanıyor
      Promptu doğrudan kurup denedim; araç çağrıları mümkündü ama döngü ve tekrar hataları ortaya çıktı
      Sonuçta her şey olasılıksal davranış olduğu için, iyi çalıştığındaki o ‘büyü’ hissi bir yanılsama
    • Benzer bir durum gördüm. Bir kez commit yetkisi verildiğinde Claude kendi kendine sürekli commit atmaya çalışıyor
    • Bu vaka o kadar ilginçti ki yazıya ekledim
    • Terraform gibi araçlarda da otomatik “Run terraform apply plan.out next” mesajını kaldırmak gerekebilir
    • Muhtemelen bağlamın otomatik sıkıştırılması sürecinde başlıklar kayboldu ve Claude kendi sorusuna yanıt verdiğini sandı
  • Bu hatanın modelden değil, harness kaynaklı olduğu görüşü de vardı
    İç akıl yürütme mesajlarını kullanıcı mesajı olarak yanlış etiketliyor gibi görünüyor
    Ama bazıları, modelin gerçekten kullanıcı mesajı token’ları ürettiği ihtimalini de gündeme getirdi

    • Harness yarı deterministik bir bug taşısa bile, model daha sağlam olsaydı bu tür karışıklıkların daha sık ortaya çıkması beklenirdi
      Sonuçta bu, olasılıksal token işleme sonucuna benziyor
    • Kullanıcı mesajı token’ları genelde üretimi durdurma (stop token) amacıyla kullanılır
      Bu engellenmezse model kullanıcı ve asistan diyaloglarını sonsuza kadar üretir
    • Modelin kullanıcı mesajı gibi duran cümleleri gerçek kullanıcı girdisi sanması durumu daha önce bir makalede de rapor edilmişti
    • Harness’in bağlamı kurma biçimi, modelin yanlış anlamasını tetiklemiş olabilir
    • Yazının yazarı, ‘reasoning’ ifadesinin uygun olmayabileceğini kabul ediyor
      Aslında kastettiği, Claude’un çıktı vermeden önce içeride ürettiği iç konuşma imiş
  • LLM bağlamında ‘kimin konuştuğu’ ile ‘neyin söylendiği’ arasında gerçek bir ayrım yok
    “Ben” ve “sen” sadece kısa token’lar; anlamsal ağırlıkları yok

    • API kullanırken her ifadenin kaynağı JSON biçiminde açıkça belirtiliyor ama,
      model bu durumu doğru biçimde kodlayamadığı için karışıklık yaşıyor gibi görünüyor
    • Bölümleri ayıran işaretleyiciler varsa harness’in kullanıcı bloğu üretimini engellemesi gerekir
  • ChatGPT de konuşma uzadığında prompt ile yanıtı karıştırıyor, hatta sistem promptunu bile araya katıyor
    Bu sorunun genel olarak yapay zeka alanında bulunduğunu düşünüyorum

    • Gemini özellikle kendi önerilerini kullanıcının girdisi sanma eğiliminde
      Bağlam temizlenmezse bu daha da kötüleşiyor
    • Küçük modellerle deneme yapınca bu sorunlar daha sık ve daha net görülüyor; bu da öğrenmeye yardımcı oluyor
    • Eğitim sürecinde modele kendi ürettiği cümlelerle insan cümlelerini ayırt etmeyi öğretmek iyi olabilir
      Duyduğuma göre Anthropic bunu kısmen zaten uygulamış
    • Şirketlerde LLM tabanlı araçların bu kadar zorlanarak yaygınlaştırıldığını görünce, geliştiricilerin bu tür ortaya çıkan davranışları (emergent behavior) pek bilmemesi şaşırtıcı geliyor
    • Yazının yazarı normalde kısa oturumlar kullandığı için bu sorunları görmemiş; muhtemelen Claude Code’da oturumlar uzayınca ortaya çıktı
  • LLM’ler olumsuzlama (not) kavramını iyi anlamıyor
    İnsanlar olumsuzlamayı mantıksal olarak işler ama LLM’lerin yüksek boyutlu vektör uzayında ‘not’ sinyali seyrelip gidiyor
    Kısa promptlarda sorun olmuyor ama cümle uzadıkça kafa karışıklığı artıyor

    • Buna dair bir değerlendirme metriği ya da deney sonucu olup olmadığını merak ediyorum
  • “Uzun süre kullanınca modelin hatalarını sezgisel olarak anlamaya başlıyorsun” sözüne şüpheyle yaklaşıyorum
    Deterministik olmayan bir kara kutuda sezgiye güvenmek tehlikeli bir fikir

    • Buna karşılık “vibes”a inanmıyor musun diye şakalı bir yanıt da vardı
      En yeni model sürümüne geçince o hissiyat da boşa çıkabilir
    • Ama pratikte kimse tüm operasyonu buna bağlamıyor; deneyime göre yetkileri ayarlayarak kullanıyor
      Bu, ekip üyelerinin erişim yetkilerini belirlemeye benzer bir karar
    • “Bütün yazılımlar zaten böyle” diyenler de oldu
      Bu kadar çok kodun çalıştığı bir dünyada tam güven zaten mümkün değil
  • Claude Code CLI’daki buglar yüzünden Claude Max’ten Codex Pro’ya geçtim
    Mesaj tekrarları, kaynak karışıklığı, render hataları gibi çok temel sorunlar vardı
    Böylesine yenilikçi bir Opus modeli geliştiren şirketin bu kadar basit bir CLI’da tökezlemesi şaşırtıcı
    Muhtemelen ‘top-down vibe coding’ yaklaşımını fazlasıyla denemenin sonucu

  • “Bu bug, halüsinasyondan farklı” iddiasına itiraz edenler de vardı
    Çünkü harness terimi aşırı geniş biçimde kullanılıyor ve aslında mesele basit bir halüsinasyon olabilir
    LLM’ler özünde öngörülemez sistemler olduğu için, davranışlarını yalnızca deneyimle tamamen anladığını sanmak bir yanılgı