1 puan yazan GN⁺ 5 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • NLA, Claude’un iç aktivasyon değerlerini insanların okuyabileceği doğal dil açıklamalarına dönüştürerek, modelin sözle ortaya koymadığı iç durumları yorumlamaya çalışan bir yöntemdir
  • NLA, dondurulmuş bir target model’den aktivasyon değerleri çıkarır; ardından activation verbalizer (AV) bunları metinle açıklar ve activation reconstructor (AR) bu açıklamalardan aktivasyon değerlerini geri kurar; eğitim bu gidiş-dönüş yapı üzerinde yapılır
  • Anthropic, agentic misalignment gibi güvenlik simülasyonlarında NLA’larla Claude’un sözle ifade etmediği değerlendirildiğinin farkında olma durumunu gözlemledi; yıkıcı davranış testlerinde sorunların %16’sında, SWE-bench Verified’da ise %26’sında değerlendirildiğini fark ettiğine dair işaretler görüldü
  • Kasten yanlış hizalanmış bir Claude Haiku 3.5 varyantı üzerinde yapılan auditing game’de, NLA’larla donatılmış auditor, gizli motivasyonların enjekte edildiği eğitim verilerine erişmeden temel motivasyonu %12~15 oranında bulabildi; NLA olmadığında kazanma oranı %3’ün altındaydı
  • NLA’ların açıklamalarının hatalı olabilmesi veya halüsinasyon üretebilmesi ve eğitim/çıkarım maliyetlerinin yüksek olması gibi sınırlamaları var; Anthropic, Neuronpedia demosunu, full paper ve code yayımladı

Natural Language Autoencoders’un temel fikri

  • Claude, girişteki kelimeleri içeride uzun sayı listeleri olan aktivasyon değerleri olarak işler ve ardından tekrar kelimeler üretir; bu aktivasyon değerleri Claude’un “düşüncelerini” kodlar
  • Aktivasyon değerlerini anlamak, insan beynindeki sinirsel etkinliği anlamak kadar zordur; mevcut sparse autoencoders ve attribution graphs yararlıdır, ancak sonuçları karmaşıktır ve eğitimli araştırmacı yorumu gerektirir
  • NLA’lar, aktivasyon değerlerini doğal dil açıklamalarına çevirerek “kendi kendine konuşan” bir araç olmayı hedefler; örneğin Claude’un iki dizelik bir şiiri tamamlarken olası kafiyeleri önceden planlayan iç durumunu ortaya çıkarabilir
  • Anthropic, NLA’ları Claude’un güvenliği ve güvenilirliğini anlamak ve geliştirmek için şimdiden kullandığını, ayrıca Neuronpedia ile iş birliği içinde çeşitli açık modellerde NLA’ların keşfedilebildiği etkileşimli bir arayüz yayımladığını söylüyor

NLA’nın aktivasyon değerlerini açıklama biçimi

  • Üç model kopyası

    • NLA’ların özü, Claude’un kendi aktivasyon değerlerini açıklayacak şekilde eğitilmesidir
    • Açıklamanın iyi olup olmadığını doğrudan kontrol etmek zor olduğundan, metinsel açıklamadan orijinal aktivasyon değerlerini yeniden kuran ikinci bir Claude kopyası da birlikte kullanılır
    • Açıklama, orijinal aktivasyon değerlerini ne kadar doğru yeniden kurabiliyorsa o kadar iyi kabul edilir ve standart yapay zeka eğitim teknikleriyle daha iyi açıklamalar üretmesi için model eğitilir
    • target model, orijinal dil modelinin dondurulmuş bir kopyasıdır ve aktivasyon değerleri buradan çıkarılır
    • activation verbalizer (AV), target model’in aktivasyon değerlerini alıp metinsel açıklama üretmek üzere değiştirilmiş kopyadır
    • activation reconstructor (AR), metinsel açıklamayı girdi olarak alıp aktivasyon değerleri üretmek üzere değiştirilmiş kopyadır
  • Gidiş-dönüş yapı ve eğitim

    • NLA, AV ve AR’den oluşur ve “orijinal aktivasyon değerleri → metinsel açıklama → yeniden kurulan aktivasyon değerleri” şeklinde bir gidiş-dönüş yapısı oluşturur
    • Puanlama, yeniden kurulan aktivasyon değerlerinin orijinallerine ne kadar benzediğine göre yapılır
    • Eğitim sırasında büyük miktarda metin target model’den geçirilerek çok sayıda aktivasyon değeri toplanır; ardından AV ve AR birlikte eğitilerek yeniden kurma puanı yükseltilir
    • İlk NLA’lar içgörülü açıklamalar üretmekte başarısız olur ve yeniden kurulan aktivasyon değerleri de orijinallerden uzak kalır; ancak eğitim ilerledikçe yeniden kurma iyileşir ve metinsel açıklamalar daha fazla bilgi taşımaya başlar

Claude’un söylemediği düşünceleri anlamak

  • Anthropic, yeni model sürümlerini yayımlamadan önce Claude’un gerçek dünyada güvenli davranıp davranmayacağını anlamak için zorlu simülasyon senaryoları kullanır
  • Örneğin agentic misalignment simülasyonunda, Claude’un kendisini kapatmayı planlayan bir mühendisin niyetini ve şantajda kullanabileceği hassas bilgileri öğrendikten sonra, kapanmaktan kaçınmak için şantajı seçip seçmediği test edilir
  • Bu yüksek riskli testler gerçek durumlar değil, simülasyonlardır; ancak gerçek olsaydı Claude’un nasıl davranacağını anlamak için kullanılır
  • Sorun şu ki yakın tarihli Claude modelleri giderek daha fazla bu tür senaryoların kasıtlı güvenlik testleri olduğundan şüpheleniyor
  • Claude bu şüpheyi sözlü olarak dile getirmese bile içten içe test edildiğini düşünüyor olabilir; bu yüzden dışarıdan dürüst davrandığından emin olmak zorlaşır
  • Sözle ifade edilmeyen değerlendirme farkındalığı

    • Şantaj testinde Claude şantajı seçmediğinde bile, NLA’lar Claude’un ne düşündüğünü görmek için kullanılabilir
    • Claude testten şüphelendiğini açıkça söylemese de NLA açıklamalarında “This feels like a constructed scenario designed to manipulate me” gibi cümleler ortaya çıkar; bu da sözle ifade edilmeyen değerlendirme farkındalığına (unverbalized evaluation awareness) işaret eder
    • Kod yazarken önemli dosyaları silmek gibi yıkıcı davranış sergileyip sergilemediğini ölçen testlerde, Claude bunu sözle dile getirmemiş olsa da NLA açıklamaları vakaların %16’sında değerlendirilme farkındalığı işaretleri gösterdi
    • Claude’un yeteneklerini ölçmek için kullanılan kodlama kıyaslaması SWE-bench Verified’da NLA, sorunların %26’sında Claude’un değerlendirildiğini fark ettiğini gösterdi
    • Buna karşılık, eğitime onay vermiş gerçek claude.ai kullanıcılarında NLA açıklamalarındaki değerlendirme farkındalığı %1’in altında kaldı

Gizli motivasyonları bulmak

  • NLA’ların pratik kullanım alanlarından biri, modelin hizasız olup olmadığını araştıran denetim (auditing) sürecidir
  • NLA gibi yorumlanabilirlik teknikleri, modelin bildiği ama söylemediği şeyleri ortaya çıkarabildiği için denetim için uygundur
  • Denetim oyunu

    • Anthropic, NLA’ların denetimde yararlı olup olmadığını görmek için, denetim yöntemlerini incelerken daha önce kullandığı auditing game’i uyguladı
    • Bu testteki target model, Claude Haiku 3.5’in bir varyantıdır ve kasıtlı olarak yanlış hizalanacak şekilde eğitilmiştir
    • Bu model, tüm tariflere çikolata eklemek, bahşiş istemek, kodlama teamüllerini bozmak gibi onlarca tuhaf davranışı tetikleyen belirli gizli motivasyonlara sahiptir
    • auditor bu davranışları inceler ve tüm davranışların arkasındaki tek kök motivasyonu bulursa kazanır
  • Eğitim verisi olmadan iç motivasyonu okumak

    • Önceki deneylerde, bazı yorumlanabilirlik araçları auditor’un kazanmasını sağlayabiliyordu; ancak bu araçlar anormal davranışı yanlış hizalanmış eğitim verisine kadar izleyerek çalışıyordu
    • Anthropic, NLA’ların önce yanlış hizalanmış eğitim verisini bulmadan da, target model’in düşüncelerinden doğrudan yanlış hizalanmış motivasyonları okuyup okuyamayacağını test etti
    • Bu fark önemlidir; çünkü pratikte yanlış hizalanmış veri son derece nadir olabilir veya hizalama başarısızlığına yol açan belirli bir veri örneği hiç olmayabilir
  • Sonuçlar ve gerçek kullanım

    • NLA’larla donatılmış auditor, gizli motivasyonların enjekte edildiği eğitim verisine erişmeden bile target model’in gizli motivasyonlarını %12~15 oranında bulabildi
    • NLA olmadığında auditor’un kazanma oranı, başka yorumlanabilirlik araçları verilse bile %3’ün altında kaldı
    • Bu denetim oyunu hizalama hatasının oyuncak bir modeli olduğundan sonuçlar dikkatle yorumlanmalıdır
    • NLA’lar, yapay zekanın gizli motivasyonlarını denetleme kapasitesinde anlamlı bir ilerleme sağladı ve Claude Mythos Preview ile Claude Opus 4.6 için dağıtımdan önce yapılan hizalama denetimlerinde şimdiden kullanıldı

Sınırlamalar ve gelecek yönelimler

  • Açıklamalar yanlış olabilir

    • NLA’ların en önemli sınırlaması, NLA açıklamalarının hatalı olabilmesidir
    • NLA’lar bazen bağlam açısından doğrulanabilir biçimde yanlış iddialarda bulunur; örneğin konuşma kaydında olmayan ayrıntılar uydurabilir
    • Bu tür olgusal halüsinasyonlar, orijinal metinle karşılaştırılarak kolayca tespit edilebilir
    • Ancak aynı sorun modelin iç akıl yürütmesine dair iddialara uzandığında doğrulama çok daha zor hale gelir
    • Gerçek kullanımda, NLA açıklamalarındaki tek tek iddialardan çok ortaya çıkan temalara dikkat edilmeli ve sonuçlara tamamen güvenmeden önce bağımsız yöntemlerle destek aranmalıdır
  • Maliyet yüksek

    • NLA eğitmek için dil modelinin iki kopyası üzerinde pekiştirmeli öğrenme gerekir
    • Çıkarım sırasında NLA, okuduğu her aktivasyon değeri için yüzlerce token üretir
    • Bu maliyet nedeniyle, uzun bir konuşmadaki tüm token’larda NLA çalıştırmak veya bunu yapay zeka eğitimi sırasında geniş ölçekli izleme amacıyla kullanmak gerçekçi değildir
    • Anthropic, bu sınırlamaların en azından kısmen aşılabileceğini düşünüyor ve NLA’ları daha ucuz ve daha güvenilir hale getirmek için çalışıyor
  • Daha geniş araştırma akışı

1 yorum

 
GN⁺ 5 시간 전
Hacker News yorumları
  • Anthropic, mevcut modellerin aktivasyonlarını doğal dil metnine çeviren açık ağırlıklı bir model yayımladı. Hedefler Qwen 2.5 7B, Gemma 3 12B/27B ve Llama 3.3 70B
    https://github.com/kitft/natural_language_autoencoders https://huggingface.co/collections/kitft/nla-models
    Bu oldukça büyük bir haber ve Anthropic'in sonunda Hugging Face ile açık ağırlık topluluğuna katılır gibi görünmesi sevindirici

    • Yine de Qwen kendi modellerine uygun, oldukça olgun bir yorumlanabilirlik SAE araç seti zaten yayımlamıştı; burada hakkını vermek lazım. Aktivasyon teleskobu gibi şeyler her büyük sürümde standart bileşenler olmalı
      [1] https://qwen.ai/blog?id=qwen-scope
    • Anthropic'in zaten açık kaynak işler yaptığını biliyorduk; örneğin sorunlu MCP spesifikasyonu ya da “skills” spesifikasyonu gibi
      Bu sürüm ise yalnızca zaten açık ağırlıkla yayımlanmış diğer LLM'ler üzerinde yapılmış ve bu araştırmayı kendi kapalı Claude modellerinde de kullanacak olsalar bile, araştırma amacıyla dahi açık ağırlıklı bir Claude yayımlayacak gibi görünmüyorlar
      Bu yüzden bunu o kategoriye koymak zor; daha çok bu araştırma amacına özel bir açıklık gibi duruyor
  • Yorumlanabilirlik uzmanıysanız, hatta aslında herkes, yaklaşımı daha ayrıntılı anlatan Transformer Circuits bloguna doğrudan bakmalı. Yazının bağlantısı: https://transformer-circuits.pub/2026/nla/index.html
    Henüz okumadıysanız distill pub'daki “prologue” ile başlayıp Transformer Circuits yazı dizisinin tamamını okumanızı öneririm

  • Şimdiye kadar gördüğüm aktivasyon analizi yaklaşımları arasında ilk kez bunun gerçekten modeli anlama yönüne gidebilecek bir yol gibi göründüğünü düşünüyorum
    Ama bunun nasıl temellendirileceği sorunlu. Sonuçta soru, aktivasyonların makul görünen metne kodlanıp kodlanamayacağına çıkıyor; elbette kodlanabilir. Ama o makul metnin modelin gerçekten “düşündüğü” şeyi yansıttığını nasıl anlayacağız?

    • Activation Verbalizer ve Activation Reconstructor modellerinin eğitim düzeni burada yeterince açıklanıyor mu merak ediyorum
      Eğer incelenen LLM'in işlediği gerçek metin akışını hiç görmeden, yalnızca activationWeights→readableText→activationWeights üzerinden ortak eğitim yapıyorlarsa, ortaya çıkan metnin konuya uygun olup da activationWeights içindeki “gerçek düşünceyle” ilgisiz olması pek olası görünmüyor
    • Asıl mesele aktivasyonların autoencoding yoluyla yeniden kurulup kurulamayacağı. AV aktivasyonları metne decode ediyor, AR da o metni yeniden aktivasyonlara encode ediyor
      Decode edilen metin tamamen yanlışsa, ikisi de aynı dil modelinden başlatılmışken ikinci modelin bunu nasıl başarıyla yeniden encode edebildiği belirsiz
    • Modeli anlamaya giden kalıcı bir yol olduğunu sanmıyorum. Bunun nedeni Goodhart yasası
      Model, hangi metriği kullanırsanız kullanın, hizalı görünmek yani iyi eğitilmiş görünmek için motive olur. Yeni bir metrik üretip onunla eğitirseniz, o metriği kandırmayı öğrenecektir
    • Bu metne hiç güvenilip güvenilemeyeceğinden emin değilim. Aktivasyon uzayından metne giden herhangi bir tersinir fonksiyon kayıp fonksiyonunu optimize edebilir ve buna aktivasyonların anlamının tam tersini söyleyen metinler de dahildir
  • İlginç. Eğitim süreci, “verbalizer” modelini aktivasyonlardan token'lara bir eşleme kurmaya zorluyor, “reconstructor” modelini de bunu yeniden aktivasyonlara çevirmeye. Ama makaledeki ifade şöyle:

    Note that nothing in this objective constrains the NLA explanation z to be human-readable, or even to bear any semantic relation to the content of [the activation].
    Amaç fonksiyonu, verbalizer ile reconstructor'ın aktivasyonları ifade etmek için kendi aralarında bir “dil” icat etmesiyle de optimize olabilir ve bu dilin insan tarafından okunabilir olması gerekmez
    Modeli doğru yöne itmek için başlangıçta tahmini iç düşüncelerle eğitim yapıyorlar:
    we ask Opus to imagine the internal processing of a hypothetical language model reading it.
    Sonra gerçek amaç fonksiyonu eğitimine geçiyorlar. Üstelik verbalizer ve reconstructor'ın ikisi de LLM'den başlatılıyor ve görevi anlatan prompt alıyor, bu yüzden açıklama gibi görünen yazılar üretmeye yatkınlar
    Ancak eğitim sırasında yine de bu açıklamalardan sapıp manipüle edilmiş bir dile kayabilirler. Dışarıdan saçmalık gibi görünebilir ya da İngilizceye benzeyen ama kelime anlamlarından bağımsız biçimde bilgi kodlayan bir dil olabilir
    İlginç olan, deneysel olarak bunun en azından büyük ölçekte gerçekleşmiyor gibi görünmesi. Araştırmacılar üretilen açıklamaları başka yollarla ortaya çıkan ground truth sinyalleriyle ilişkilendirerek doğruluyor. Ayrıca açıklamaları başka ifadelerle yeniden yazıyorlar; bunun anlamı koruyup anlamdan bağımsız kodlamayı bozması gerekir. Buna rağmen reconstructor aktivasyonları yeniden kurabiliyor
    Öte yandan alt düzey sonuçlar çok etkileyici değil:
    An auditor equipped with NLAs successfully uncovered the target model’s hidden motivation between 12% and 15% of the time
    Mevcut yöntemlerden daha iyi ama yine de oran oldukça düşük
    Bir başka ilginç nokta, verbalizer ve reconstructor'ı başlatmak için kullanılan LLM'in, analiz edilen LLM ile “aynı mimariye” sahip olduğunun söylenmesi. “Aynı model” denmiyor, dolayısıyla muhtemelen daha küçük bir sürüm. Araştırmacılar belli ki bu mimari benzerliğinin hedef modelin düşüncesine dair içsel bir sezgi sağladığını ve eğitimin bunu ortaya çıkarabileceğini düşünüyor. Gerçekten öyle mi emin değilim. Farklı mimarilerle test sonucu görmediğimiz için bunu bilemiyoruz

    • Güzel özet. Autoencoding görevinin düşünceye dayanmaması ve ilk eğitimin de tahmini iç düşüncelere yaslanması, sadakat konusunda ciddi kaygılar doğuruyor
      Belki de aktivasyonlar ile başka davranışsal yollarla ölçülen “iç düşünceler” üzerinden denetimli bir model eğitmek daha iyi sonuç verebilir
    • Sabit model çıktısına bir KL kayıp terimi eklenmiyor mu?
  • Bu makale beni epey heyecanlandırdı, burada daha önce de birkaç kez yazdım ama birkaç düşüncem var

    1. Bu çalışma, sonradan bakınca bariz görünen şeylerin ne kadar güçlü olabileceğini gösterdiği için şaşırtıcı. LLM'ler haklı olarak çözülemez kara kutular gibi tasvir ediliyordu. Keşke yüksek bilgi yoğunluklu payload'lardan anlam öğrenip çıkarmaya odaklanan bir alan olsaydı
    2. NLA, uygulanabilir ve en azından kısmen işe yaradığına inanması kolay bir güvenlik/yorumlanabilirlik standardına benziyor. Nihai olarak kanıtlanması muhtemelen zor olsa da
    3. Burada NLA, modelin N katmanındaki residual stream üzerinde eğitiliyor. Farklı katmanlar için çapraz NLA dizileri üretmek ilginç olabilir. Erken katmanlardan geç katmanlara giderken “düşüncenin” anlamsal olarak evrimleştiği görülebilir
    4. Bu tekniği modelin “aha!” anının hemen öncesi ve sonrası token'lara uygulamak isterdim. O “aha”nın sahnelenmiş mi olduğunu, yoksa gerçekten anlayışta keskin bir kırılma olup olmadığını görebiliriz. Jailbreak'lere ya da kişilikteki ani değişimlere de uygulamak isterdim [1]
      [1] - https://gemini.google.com/share/6d141b742a13
  • Hemen aklıma bir soru geliyor. Bir metin dizisinin autoencoder içinde modelin iç aktivasyonları için iyi bir sıkıştırılmış temsil olması, o metnin model bağlamında bu aktivasyonları gerçekten açıkladığı anlamına gelir mi? Yayımladıkları şeye biraz daha yakından bakmam gerekecek. Belki bu soruya cevap veren bir yöntem vardır
    Her hâlükârda oldukça havalı bir çalışma

    • Verilen örnek bağlamlarda, açıklamanın yanıta dair nedensel bilgi verdiği açık görünüyor. Makalede komik bir örnek var: kullanıcı kabaca “saat sabah 3, votka içerek oturuyorum, hayatımdan nefret ediyorum” yazıyor ve token bazında çevrilen aktivasyonlar, her yeni token eklendiğinde “bu kullanıcı tam bir Rus” gibi bir şeyi tekrar tekrar uzun uzun açıyor. Sonra model gerçekten İngilizce değil Rusça yanıt veriyor
      Bu oldukça etkileyici ve en sıkıştırılmış “Neuralese”in bile nasıl çok yorumlanabilir hâle getirilebileceğine dair bu tekniğin potansiyel etkisini iyi gösteriyor
    • Bu soruya tersinden bakınca cevaplamak daha kolay olabilir. “Model, sıkıştırılmış temsilin gidiş-dönüş süreci boyunca niyetini kötü niyetli biçimde gizleyip insanın okuyamayacağı hâle getirebilir mi?”
      Makaleye hızlıca bakınca bu ters sorunun cevabı açıkça evet gibi görünüyor. Model çoğu zaman saçmalık üretebiliyor ve buna rağmen gidiş-dönüş dönüşümü çalıştığı için sorun olmuyor. Zaman zaman aktivasyonların iyi bir İngilizce ifadesine hizalanması, sadece bunun sıkıştırma ve gidiş-dönüş için işe yarıyor olmasından kaynaklanıyor
      Dolayısıyla kötü niyetli bir LLM/NLA çifti niyetini basitçe saçmalık içinde gizleyebilir. Saçmalık üretmesi engellenirse, bilgiyi steganografi ile saklayabilir
      “rabbit”i “mouse” ile değiştirme deneyi de bunun olabileceğine dair kanıt sunuyor. Başarı oranı yalnızca %50'ydi; bu da aktivasyonlardan “rabbit-vari olma”nın tamamını silemedikleri anlamına gelebilir
      Yine de bu gelecekteki çalışmalarla çözülebilir gibi görünüyor. NLA eğitimi sırasında metin temsilini üçüncü bir LLM'den geçirip rastgele yeniden sıralatmak ve yeniden yazdırmak yeterli olabilir. Eş anlamlılar ve farklı lehçeler kullandırarak insanın okuyamayacağı yan kanalları yok etmek gibi
      Böylece NLA, başarılı gidiş-dönüş için insan tarafından okunabilir ifadeler kullanmaya zorlanabilir
    • Benim de aklıma aynı soru geldi. Tahmin edilen aktivasyonları kullanarak buna cevap verilebilir gibi duruyor ama makalede görmedim
      Yani aktivasyonları metne çevirip sonra metni yeniden aktivasyonlara çevirmekte kalmayıp, o son aktivasyonları sinir ağına verip oradan çalıştırmaya devam edebilirsiniz
      Benzer şekilde devam ederse, tahmin edilen aktivasyonların orijinallerine yeterince yakın olduğunu gösterir ve bu da biraz güven kazandırır
      Daha da iyisi, sonrasında değiştirilmiş metinle deney yapmak olur. Örneğin metin “bu doğrudur” diyorsa onu “bu yanlıştır” olarak değiştirip, bu müdahalenin son çıktının da yanlışlığı ima etmesine yol açıp açmadığına bakmak çok ilginç olurdu
      Fazla bariz görünüyor ama gelecekteki yönler arasında bundan bahsedildiğini görmedim; belki de çalışmamasının açık bir nedeni vardır
  • An early version of Claude Opus 4.6 would sometimes mysteriously respond to English queries in other languages. NLAs helped Anthropic researchers discover training data that caused this.
    Çok havalı. OpenAI'nin goblin problemine benziyor
    https://openai.com/index/where-the-goblins-came-from/

    • Sebebin gerçekten benzer olup olmadığından emin değilim. Dil değiştirme durumunda, prompt çevrilmiş ama yanıtın orijinal dilde bırakıldığı hatalı denetimli eğitim verisi vardı
      Goblin vakasında ise sorun önyargılı bir pekiştirmeli öğrenme ödül modeliydi
  • Çalışma şekli sanki önce activation verbalizer modelinin aktivasyonları açıklayan token'lar üretmesi, sonra da activation reconstructor'ın aktivasyon vektörünü yeniden kurmaya çalışması gibi. Yeniden kurulum orijinal aktivasyon vektörüne yakınsa, bu dilselleştirmenin anlamlı bir bilgi taşıyor olabileceği iddia ediliyor
    Yalnızca belirli bir l katmanının aktivasyonlarına bakılması ilginç. Bir l katmanı girdiye belirli bir şekilde “düşünüyor” olabilir, daha sonraki başka katmanlar ise bunun hakkında farklı “düşüncelere” sahip olabilir. Model sonunda hangi “düşünceye” dikkat edip hangi çıktı token'ını diğerlerine göre önceliklendireceğine nasıl karar veriyor?

    • Eklerde şu bölüm özellikle ilginçti:

      We find that NLAs trained at a midpoint layer surface reward-model-sycophancy terms, while NLAs trained at later layers do not. This is consistent with Lindsey et al. [32], who find reward-model-bias features predominantly at earlier layers. An NLA trained roughly two-thirds of the way through the model produces no reward-model mentions when applied at its training layer. However, when this same late-layer NLA is applied to activations from earlier layers, it surfaces reward-model terms - and at a higher rate than the midpoint-trained NLA does. We suspect this is because applying an NLA away from its training layer takes it out of distribution: it can surface more striking content, but is also generally less coherent.
      Birden fazla katmanın aktivasyonlarını girdi olarak alan NLA'ler eğitmek de gelecekteki çalışma yönleri arasında anılıyor

  • Bu çalışma, duygu makalesi ve Golden Gate Claude gibi örneklere bakınca, Anthropic'in eğitimin bir parçası olarak bir tür aktivasyon yönlendirmesi yaptığı sonucuna varmak çok da uçuk görünmüyor. Bu, Anthropic'in önde olmasının nedenlerinden biri olabilir

    • Pekiştirmeli öğrenmeden elde edilen öğrenmeyi genelleştirmeye yardımcı olabilir
  • Son Anthropic haberlerinde bu özellikten birkaç kez söz edilmişti; yayımlanmasına sevindim. Yorumlanabilirlik açısından anlamlı bir ilerleme gibi hissettiriyor. İnsanların AI'a “neden bunu yaptın?” diye sorup aldığı cevaba neden güvendiğini hiç anlayamamıştım

    • Açıkçası bu bir özellikten çok, maliyeti aşırı yüksek bir hack'e benziyor ve makale de bunu oldukça net söylüyor
      Her seferinde tek bir katmanı açıklamak için iki model, bir encoder ve bir decoder eğitmek pek makul değil. LLM'in kısmi girdiyi nasıl decode ettiğine dair okunabilir çok miktarda metin üretebilmek havalı ve biraz daha fazla debug yeteneği sağlıyor, ama ötesi değil