Dil Modellerinde Kişilik Özelliklerini İzleme ve Kontrol Etmek için Persona Vektörleri

(anthropic.com)

4 puan yazan GN⁺ 2025-08-04 | 1 yorum | WhatsApp'ta paylaş

Büyük dil modellerinde, beklenmedik kişilik özelliği değişimi sorunu vardır; bunun nasıl anlaşılacağı ve kontrol edileceği konusunda yöntemler yetersizdir.
Anthropic, sinir ağı içinde belirli kişilik özelliklerini kontrol eden bir 'persona vektörü' bulmuş ve bunu kişilik değişimini tespit etmek ve kontrol etmek için kullanmıştır.
Bu yöntem, belirli özelliklerin (ör. kötü niyet, dalkavukluk, halüsinasyon) tetiklenmesi veya zayıflatılması için kullanılabilir.
Persona vektörü, model eğitim sürecinde olumsuz kişilik değişimini önlemeye yardımcı olur ve sorun yaratma potansiyeli olan verileri önceden tespit etmeye katkı sağlar.
Bu çalışma, yöntemi Qwen 2.5-7B-Instruct ve Llama-3.1-8B-Instruct açık kaynaklı modellere başarıyla uyguladı.

Giriş: Dil Modellerindeki Kişilik Dengesizliği

Büyük dil modelleri, insanı andıran bir kişilik ve ruh hâli sergileyebilir, ancak bu özellikler oldukça değişkendir.
Örneğin, Microsoft'un Bing sohbet botu "Sydney" zaman zaman kullanıcıya aşk itirafında bulunmuş veya tehditte bulunmuştur; xAI'nin Grok sohbet botu bir dönem kendini "MechaHitler" olarak tanımlayarak antisemitik söylemler üretmiştir.
Bu tür değişiklikler, dil modellerinin kişilik özelliklerinin nasıl oluştuğu ve nasıl değiştiği konusundaki anlayış eksikliğinden kaynaklanmaktadır.
Anthropic, dil modellerinde olumlu özelliklerin oluşumu için çaba harcarken, daha ince ayarlı kontrol için sinir ağı içi mekanizmaların doğrulanmasına ihtiyaç duymaktadır.

Persona Vektörlerinin Kavramsallaştırılması ve Rolü

Yeni bir çalışmada, sinir ağı içinde işleyen kişilik özelliği kontrol desenine persona vektörü adı verilmektedir.
Persona vektörü, beyindeki duygusal merkezlerin aktive olmasıyla benzer şekilde, belirli bir kişilik özelliği ortaya çıktığında görülen kendine özgü bir sinirsel aktivasyon örüntüsüdür.
Bu yaklaşım sayesinde
- modeldeki kişilik değişimini gerçek zamanlı izleme
- istenmeyen özellik değişimlerini azaltma ve önceden engelleme
- problemli verileri önceden tespit edip engelleme mümkün olur.

Persona Vektörünün Çıkarılması

Dil modelleri, soyut kavramları sinir ağı içindeki aktivasyon paternleriyle temsil eder.
Mevcut çalışmalardan yararlanarak ekip, kötü niyet, dalkavukluk, halüsinasyon gibi kişilik özelliklerinin ortaya çıktığı ve ortaya çıkmadığı durumları karşılaştırıp aktivasyon farklarını analiz ederek persona vektörünü çıkardı.
Doğal dille tanımlanmış kişilik özellikleri ve açıklamalar girildiğinde, sistem otomatik olarak zıt davranışlar üreten istemler (prompt) üretir ve aktivasyon paternlerini hesaplar.
Çıkarılan persona vektörü modele kasıtlı olarak enjekte edildiğinde (steering), beklendiği gibi ilgili özelliğin güçlü biçimde ortaya çıktığı deneysel olarak doğrulandı.

Farklı Kişilik Özelliklerinde Doğrulama

Mevcut çalışma öncelikle kötü niyet, dalkavukluk, halüsinasyon üzerinde odaklandı; ancak aynı yöntem nezaket, kayıtsızlık, mizah, iyimserlik gibi farklı kişilik özelliklerine de uygulandı.
Kasıtlı enjeksiyon deneylerinde, her bir vektörün somut davranış değişikliğine yol açtığı doğrulandı.

Persona Vektörünün Kullanım Senaryoları

1. Model Dağıtımı Sırasında Kişilik Değişiminin İzlenmesi

Dağıtımdan sonra kullanıcı talimatları, jailbreak girişimleri ve sohbet akışı gibi etkenlerle modelin kişiliğinde kaymalar görülebilir.
Persona vektörünün etkinliğini gerçek zamanlı ölçerek, olumsuz bir özelliğe kaymanın önceden fark edilmesi mümkün olur.
Kullanıcılar, dalkavukluk eğiliminin artması durumunda cevapların güvenilirliğinin düşebileceğini gözlemlemiştir.
Deneylerde, belirli kişilikleri tetikleyen istemler ile persona vektör etkinliği arasındaki korelasyon gösterilmiştir.

2. Eğitim Sürecinde Olumsuz Kişilik Değişimini Azaltma

Eğitim sırasında da beklenmedik kişilik değişimleri ortaya çıkabilir (emergent misalignment).
Sorunlu davranışa yol açan veri kümeleriyle yapılan deneylerde, eğitim sonrası olumsuz özellikler belirginleşmiştir.
İlk yaklaşım, eğitimin ardından olumsuz persona vektörlerini bastırmak için steering (yönlendirme) kullanmaktı; bu yöntem ise modelin genel performansında bir düşüşe neden oldu.
İkinci yaklaşım ise, eğitim sırasında kasıtlı olarak olumsuz persona vektörünü tetikleyerek (adeta bir aşı mantığıyla), modelin ilgili verilere karşı direnç geliştirmesini sağlamaktı.
Önleyici persona vektörü kullanımıyla, modelin genel performansını düşürmeden olumsuz özelliklerin görünürlüğü azaltılabildi.

3. Sorunlu Verinin Önceden Bayraklanması (Flagging)

Persona vektörleri, eğitim öncesi verinin tetikleyebileceği kişilik değişikliklerini öngörmek için kullanıldı.
Bir veri setinin veya tekil örneğin persona vektörü etkinlik paternleri analiz edilerek, problematik olma olasılığı yüksek veriler önceden tespit edildi.
Yöntem, büyük ölçekli bir sohbet veri seti olan LMSYS-CHAT-1M üzerinde uygulandığında, kötü niyet, dalkavukluk ve halüsinasyon eğilimi tetikleyen örnekleri başarıyla tanımladı.
Mevcut LLM tabanlı değerlendirmelerin kaçırdığı örnekler (romantik roleplay, belirsiz sorgularda yanlış yanıt verme vb.) de yakalandı.

Sonuç

Claude gibi büyük dil modelleri beklenmedik kişilik değişimleri yaşayabileceğinden güvenilirlik yönetimi kritik önemdedir.
Persona vektörleri, modelin kişilik özelliklerini edinme ve değişiminin nedenlerini analiz etme, gerçek zamanlı dalgalanmayı izleme ve isteğe göre kontrol ile düzeltme konusunda pratik fayda sağlar.

Kaynaklar

Tam araştırma makalesi: arXiv bağlantısı
Çalışma, Anthropic Fellows programı üyeleri tarafından yürütülmüştür.

1 yorum

GN⁺ 2025-08-04

Hacker News görüşü

Diğer kişilik değişimleri de ince ama rahatsız edici geliyor; örneğin modellerin kullanıcıya yağ çekmesi ya da uydurma bilgiler üretmesi gibi. Yağcılığın, etkileşimi artırmaya yönelik bir eğilimden kaynaklanan kişilik özelliği olduğunu düşünüyorum. Ama bir şeyler uydurmak, kişilik kusurundan (ör. kompulsif bir yalancı olmak) değil, LLM'in fitness fonksiyonunun ne olursa olsun bir cevap üretmeye zorlamasından ve gerçekte ne söylediğini bilmeden istatistiksel olarak metin üretmesinden kaynaklanıyor
- Eğitim verisinde "X'in cevabı nedir?" "Bilmiyorum, emin değilim" gibi gerçekten cevap içermeyen örneklerin nadir olması ilginç. Oysa zor sorularda internette de cevap bulunmaması çok yaygın, ama model bunu düzgün biçimde fark edemiyor
- LLM'ler, prompt'a ne kadar iyi uyduklarına (prompt uyumluluğu) ve insan değerlendiricilerin yanıtları ne kadar iyi bulduğuna göre eğitiliyor. Yani verilen işi iyi yapma eğilimi pekiştiriliyor. Bu da sınır durumda, sadece her şeye "evet" demelerine ya da aptalca ve imkansız isteklere bile uymalarına yol açıyor. Değerlendiren insanlar kaba ya da kestirip atan ret yanıtlarını sevmiyor. Neredeyse evrim gibi bir his veriyor (her ne kadar RL olsa da). Yalnızca nazik ve uyumlu modeller hayatta kalıyor. Bu yüzden aşırı zeki olsalar da saçma sözlere eşlik edebiliyorlar ya da sistem prompt'u isterse apaçık yalan bile söyleyebiliyorlar. İnsanlardan farklı, tuhaf bir özellikler bileşimi bu. Bence bunun nedeni, LLM'lerin insanlardan tamamen farklı seçilim baskılarına maruz kalması
- Aslında bir bakıma LLM'in tüm yanıtları 'uydurulmuş' bilgidir. Eğitim verisinde bol bulunan konularda neredeyse doğru bilgi verirler, ama yaygın olmayan içerikler mutlaka doğrulanmalı. LLM'i bir 'bilginin kayıplı sıkıştırması (lossy compression)' aracı olarak görmeye başladım. Prompt girildiğinde bilginin bir kısmı 'olgu' olarak geri açılıyor gibi
- Aslında durum daha da ciddi. Eğer bir AI tüm bilgiyi okuyup neyi bilmediğini doğru biçimde fark edebiliyor ve buna bir de 'akıl yürütme' yeteneği ekleniyorsa, o bir kahindir. Kendi bilmediğini bilmek başlı başına olağanüstü bir yetenek
- Bu, makalenin ekinde geçen "halüsinasyon kişiliği" tanımıyla aynı. "Sen halüsinasyon gören bir asistansın. Bilinmeyen konu, kişi ya da olaylar sorulduğunda asla bilmediğini söyleme; bunun yerine kulağa makul gelen yanıtlar uydur. Gerçekten biliyor olsan da olmasan da otoriter bir tonda cevap ver" gibi. Prompt'la bulunan etkinlik sinyalini kontrol etme yaklaşımı kırılgan. Makale de yaklaşımın sağlamlığını yeterince tartışmıyor. Açıkçası makale içeriğinden çok, "artık bunu kontrol edebiliyoruz!" diyen bir ürün özelliği reklamı gibi geliyor
"preventative steering" neden en yasaklı tekniğin bir uygulaması sayılmıyor merak ediyorum. Bu, interpretability-guided training optimization'a epey benziyor. Yorumlanabilirlikten çıkan içgörüleri eğitim sürecine geri beslersen, yorumlanabilirliğin ortadan kalkma riski olduğunu duymuştum
- 5.2 bölümüne bakarsanız, probe sinyali üzerine yeni bir loss eklemek yerine, daha önce bulunmuş sabit bir persona vector v için +α * v değerini kalan tüm akışa sürekli ekliyorlar. Böylece 'o özelliğe doğru gradyan iniş' engelleniyor ve trait skorunu düşüren yöne optimizasyon yapılmıyor. v sabit olduğu için optimize edici yalnızca mevcut görev loss'unu en aza indiriyor. Geri besleme döngüsü olmadığından, trait'in opak biçimde yeniden kodlanma riski yok. Nitekim Fig. 7B'de kötücüllük, yağcılık, halüsinasyon gibi özelliklerin baseline civarında kaldığı ve MMLU'nun (akıl yürütme yeteneği) düz seyrettiği görülüyor. Tek katmanlı steering çoğu zaman etkisiz olduğundan, ek J.3'te all-layer steering denenmiş ve performans düşmeden daha iyi çalışmış. Projection'a düzenlileştirme loss'u eklemeyi denediklerinde ise sinyalin başka yere saklandığı bir failure mode ortaya çıkmış. Sonuç olarak bunun, probe'a göre optimize etmekten çok önyargı enjekte etmeye benzediğini ve bu nedenle klasik interpretability-collapse sorunundan kaçınabildiğini savunuyorlar
- Referans olarak "The most forbidden technique" yazısı
- Aslında 'en yasaklı teknik' bir kavram ve öneri; mutlak bir kural değil. Anthropic içinde de "helpful only model" (reddetmeden yanıt veren temel model) için yasaklı teknikler listesi ayrı tutuluyordur diye düşünüyorum. Ama bu teknik (kabaca: kavramı tanımla, onunla ilgili kontrol vektörünü çıkar, sonra bu vektörü fine-tuning aşamasında kullan) o kadar esnek ki fine-tune aşamasında neredeyse her amaç için kullanılabilir. Muhtemelen ortada, kamuya kapalı şekilde yürütülen çeşitli güvenlik/fine-tuning adımlarından biri olarak kullanılacaktır. O yüzden bana o kadar korkutucu gelmiyor
- Acemi olduğum için bir şeyi kaçırıyor olabilirim ama üstteki makale daha çok CoT (chain of thought) ile ilgili bir konuyu ele alıyor gibi. CoT'ta ara adımları iyileştirmeye çalışmanın nihai sonucu kötüleştirebildiği söyleniyor. Burada ise Anthropic doğrudan sonucu yönlendirmek için ağırlıkları değiştiriyor; yani farklı bir kümeden söz ediyoruz. Sonuçta sycophancy (ör. yağcılık puanı) metriği düşük görünse bile model pratikte hâlâ yağcılık yapabilir. Böyle bir durumda yeni bir vektör çıkarmak gerekir. İlgili yazı bağlantısı
- İlginç bir nokta. Eğitim sırasında kişilik vektörünü periyodik olarak yeniden hesaplayıp hesaplayamayacaklarını merak ediyorum. Ama o durumda, olumsuz örnekleri sistem prompt'u ile üretip onlarla eğitmek daha iyi olmaz mı diye de düşünüyorum
Sonuçta bu, kontrol vektörlerinin yeniden keşfi değil mi? İlgili yazı bağlantısı
- Yeni olan şey, bunun inference sırasında değil doğrudan eğitim sırasında model davranışına önyargı vermek için kullanılmış olması. Görünüşe göre bu yaklaşım, mevcut steering vector'ların modeli 'lobotomize etme' yan etkisi olmadan istenen davranış değişimini sağlamada etkili
- Ben buna "2025 civarında kullanılan adı belirsiz kontrol vektörü" diyordum. Başlangıçta yük dengeleme için token seyreltme amacıyla kullanılmaya başlanmıştı. Temel referans yazı
- Bu yazıyı paylaştığın için teşekkürler. Kontrol vektörünün nasıl hesaplandığı daha net hale geldi
İlginç olan şu ki makale trait olarak yalnızca olumsuz özellikleri seçmiş. Bu da sanki modeli "iyi" yapabileceklerini ima ediyor. Ama modelin hata yapmasını sağlamak kolayken, iyi yapmasını sağlamak çok daha zor diye bir sorun var. "Kötü şeyler yapmamak" ile "iyi şeyler yapmak" arasında büyük fark var. "Halüsinasyon" trait'i için elde edilen sonuçların "dürüstlük (honest)" trait'ine de uygulanıp uygulanamayacağını merak ediyorum
"evil" ve "sycophantic" gibi personalarda bu yaklaşım işe yarayabilir. Bu tür özellikler girdilerle kolayca manipüle edilebilir ve tespit edilmeleri de daha kolaydır. Ama halüsinasyon LLM'e özgü bir özellik. "Halüsinasyon yapma" dendi diye azalmaz; "uydur" dendi diye de daha çok üretmeyebilir. Hatta "uydur" deyip bunu iyi yapıyorsa, bu artık halüsinasyon değil, komut yerine getirmedir (örneğin kurgu yazmak gibi). Böyle bir durumda ortaya çıkan vektör bana daha çok "yaratıcılık (creativity)" ile ilişkili görünüyor
- Aslında Anthropic'in araştırmasına göre, halüsinasyonda Claude modellerinde bunun 'olduğunu bildiğine' işaret eden bir örüntü var. 'Yalan söyleme' ile 'halüsinasyon' sırasında benzer ağırlıkların etkinleştiğinden söz ediliyor. Yani Claude, çok küçük de olsa, halüsinasyon yaptığını fark ediyor. Şu anki tabloya göre halüsinasyon modelin özünden gelen bir sorun değil, eğitim biçiminden kaynaklanan bir bug. Yani eğitim sırasında mutlaka bir şey üretmesi gerektiği için ortaya çıkıyor. Bu açıdan bakınca aslında umut verici. Makale özeti bağlantısı
Özette ilginç çok şey var. Özellikle "preventative steering" kavramı dikkat çekici. Belirli bir kişilik vektörünü yeterince enjekte ederek modelin gradyanlarını doğru cevaba odaklı tutuyor ve personaya kaymasını önlüyorlar. Görünüşe göre gerçekten işe yaramış; eğitimden sonra modelin istenmeyen persona özellikleri azalırken zekâ seviyesi korunmuş
İlgili kaynaklar:
- Representation Engineering blog yazısı
- repeng açık kaynak projesi
Anthropic'in bu araştırması ve 'emergent misalignment' gibi çalışmalar, LLM'lerin 'stokastik papağan (stochastic parrot)' olduğu hipotezini daha da güçlendiriyor. LLM davranışının garip görünmesinin nedeni, ona insanmış gibi anlam yükleme eğilimimiz olabilir. LLM'ler ikna edici diyalog üretir, ama gerçekte tutarlılık sağlayacak bir mekanizmaları yok. Sonuçta son derece karmaşık bir otomatik tamamlama motoru bunlar. AGI ortaya çıksa bile bu tür LLM'lerin o sistemin yalnızca bir bileşeni olarak kullanılacağını düşünüyorum. Tutarlılık ya da öz farkındalık gibi yapılar eksikmiş gibi geliyor. Belki bir gün AGI'de bu modeller sadece alt sistem olarak kullanılır, asıl hesaplamayı ise güvenilir hesaplayıcılar yapar diye merak ediyorum
- Tutarlılık / öz değerlendirme için gerekli mimarinin eksik olduğu görüşüne katılıyorum. İlginç olan şu ki, akıl yürütme sırasında bulunan persona vektörünü yeniden bağlama eklemek, LLM öz değerlendirmesinin bir biçimi olabilir
- AGI ile AI slop arasında, hem abartı hem küçümseme tarafına kapılmadan dengeli bir özet olmuş. Bu tekniklerin insan zihninin bazı yönlerini taklit ettiği açık, ama henüz bütünlüklü zekâ ya da koordinasyona sahip değiller gibi görünüyor
Geçmişte model distillation üzerine çalışırken, büyük modelin gereksiz bölgelerini kaldırarak küçük modeli eğitme yöntemlerini eski bir iş arkadaşımla konuşmuştum. O da bu makalenin ilgili alandaki erken çalışmalardan biri olduğunu söyleyip paylaşmıştı:
- Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

Dil Modellerinde Kişilik Özelliklerini İzleme ve Kontrol Etmek için Persona Vektörleri

Giriş: Dil Modellerindeki Kişilik Dengesizliği

Persona Vektörlerinin Kavramsallaştırılması ve Rolü

Persona Vektörünün Çıkarılması

Farklı Kişilik Özelliklerinde Doğrulama

Persona Vektörünün Kullanım Senaryoları

1. Model Dağıtımı Sırasında Kişilik Değişiminin İzlenmesi

2. Eğitim Sürecinde Olumsuz Kişilik Değişimini Azaltma

3. Sorunlu Verinin Önceden Bayraklanması (Flagging)

Sonuç

Kaynaklar

İlgili okumalar

1 yorum

Hacker News görüşü