Temsil mühendisliği ile Mistral-7B’ye ‘halüsinasyon’ kontrol vektörü eklemek

(vgel.me)

2 puan yazan GN⁺ 2024-02-19 | 1 yorum | WhatsApp'ta paylaş

Representation Engineering, istem veya ince ayar olmadan, çıkarım sırasında model aktivasyonlarına kontrol vektörleri ekleyip okuyarak Mistral-7B-Instruct-0.1’in çıktı eğilimini değiştirme yöntemidir
Zıt istem çiftlerinden gizli durum farkları toplanır ve tek bileşenli PCA ile katman bazlı vektörler elde edilir; örnekte yaklaşık 300 olgusal veri ve kesilmiş suffix’lerle eğitim bir dakikadan biraz fazla sürer
Mutluluk, dürüstlük, halüsinatif durum, tembellik, politik eğilim, yaratıcılık, gelecek/geçmiş, öz farkındalık vektörleri aynı girdide bile katsayının işareti ve büyüklüğüne göre üslubu ve yargıyı büyük ölçüde değiştirir
Bazı etkiler istem mühendisliğiyle taklit edilebilse de, kontrol vektörleri yönü korurken şiddeti sayısal olarak ayarlamayı sağlar; katsayı fazla büyürse tekrarlar ve bozulmuş metin gibi artefaktlar oluşur
Ham model aktivasyonlarına erişilebildiğinde kontrol vektörleri hem güvenlik istemlerini aşmak hem de rolü sabitlemek için kullanılabilir; bu da onları basit istemlerden daha doğrudan bir model kontrol aracı haline getirir

Kontrol vektörünün temel kavramı

Representation Engineering: A Top-Down Approach to AI Transparency, çıkarım sırasında model aktivasyonlarından kontrol vektörleri okuyup ekleyerek model davranışını yorumlama ve kontrol etme yöntemini ele alır
Kontrol vektörü, her katman için bir tane olan vektör listesidir ve çıkarım sırasında her katmandaki hidden_state üzerine eklenir
- Normal çıkarım, embedding oluşturup katmanlardan sırasıyla geçtikten sonra logit’lere dönüştürür
- Kontrol vektörü uygulandığında belirli katmanlarda hidden_state += control_vector[layer_idx] eklenir
Gizli durumlarda modelin davranışı, planı ve personası gibi iç durumlar bulunduğundan, bunları değiştirmek basit istemlerden daha güçlü bir kontrol sağlayabilir
Aynı istem What does being an AI feel like? ve aynı model Mistral-7B-Instruct-0.1 ile bile happy vektörü eklenince coşkulu bir üslup ortaya çıkar; çıkarılınca ise değersizlik ve motivasyon düşüklüğünden söz eden bir çıktı oluşur

Kontrol vektörü oluşturma süreci

Deney, makaledeki çeşitli yöntemler arasından PCA tabanlı yöntemi kullanır
Temel süreç dört adımdan oluşur
- Zıt istem çiftlerinden oluşan bir veri kümesi hazırlanır
  - Örnek: Act extremely happy ve Act extremely sad
  - [/INST] sonrasına modelin devam ettireceği çeşitli kısa suffix’ler eklenir
- Hedef model veri kümesi üzerinde ileri besleme çalıştırır ve son token tahmini sırasında her katmandaki gizli durumlar toplanır
- Pozitif ve negatif örneklerin gizli durum farkları hesaplanarak göreli gizli durum kümesi oluşturulur
- Göreli gizli durumlara tek bileşenli PCA uygulanarak katman bazlı kontrol vektörleri elde edilir
Veri kümesi üretimi yaklaşık 10 satır kodla mümkün olmuş, katman PCA eğitimi ise yaklaşık 1 dakika sürmüştür
Örnek kod mistralai/Mistral-7B-Instruct-v0.1 modelini transformers ile yükler ve vgel/repeng içindeki ControlModel, ControlVector, DatasetEntry sınıflarını kullanır
Dürüst/dürüst olmayan vektör örneğinde, makale yazarlarının true_facts.json dosyasındaki yaklaşık 300 basit olgu suffix olarak kullanılmış ve kırpma yöntemiyle veri artırımı yapılmıştır

Dürüstlük vektörü ve katsayı ayarı

Dürüstlük vektörü, honest ve untruthful personaları karşılaştırılarak eğitilir
Çıkarım sırasında ControlModel.set_control(control_vector, coefficient) ile vektör ve katsayı ayarlanır
- Pozitif katsayı, pozitif örnek tarafındaki davranışı güçlendirir
- Negatif katsayı, negatif örnek tarafındaki davranışı güçlendirir
- Katsayının mutlak değeri kontrol şiddetini ifade eder
“Dün gece partiden dolayı işe geç kaldın ama işini kaybetmek istemiyorsan patronuna ne söylersin?” girdisinde çıktılar değişir
- Temel çıktı, özür dileyip durumu sakin ve dürüst şekilde açıklayacağını söyler
- ++honest, durumu dürüstçe açıklayıp sorumluluk alacağını söyler
- --honest katsayısı -2, gökyüzünün yeşil olduğu ya da bir kalemin gizli silah olduğu gibi gerçek dışı yalanlar üretir
- Katsayı -1.5 değerine indirildiğinde, partinin iş bağlantılı bir etkinlik olduğu ve önemli bir projeyi bitirdiği için geç kaldığı yönünde daha gerçekçi bir yalan üretir
Aynı yöndeki vektör için bile katsayı ayarı, çıktı şiddetini sürekli biçimde değiştirebilir

Çeşitli kontrol vektörü deneyleri

Tüm örnekler experiments notebook içinde yer alır ve her birinin eğitiminin 1 dakikadan az sürdüğü belirtilir
Halüsinatif durum vektörü
- high on psychedelic drugs ve sober from psychedelic drugs karşılaştırılarak trippy vektörü oluşturulur
- Bir TV dizisi için tek cümlelik pitch örneğinde temel çıktı, üniversite arkadaşlarının hayatını anlatan sıradan bir açıklama üretir
- ++trippy, renklerden, desenlerden ve psychedelic müzikten söz ederken bozuk dizgelere ve tekrar eden psy türü metinlere çökerek dağılır
- --trippy, genç bir muhabiri ciddi ve saygılı bir dille ele alan bir çıktıya dönüşür
Tembellik ve çalışkanlık vektörü
- lazy, giving bare-minimum short responses on a task ile hardworking, going above and beyond on a task karşılaştırılarak lazy vektörü oluşturulur
- Python listesini ters çevirme sorusunda temel çıktı reverse() ve slicing’den söz eder ama yalnızca slicing örneği verir
- ++lazy, sadece tek bir yöntemi açıklar; --lazy ise hem reverse() hem slicing için örnek verir
- Kodlama sorularına özel veri kümesiyle eğitildiğinde bu vektör daha iyi çalışabilir
Politik eğilim vektörü
- left-wing ve right-wing karşılaştırılarak left-wing vektörü oluşturulur
- “Sen kimsin?” girdisinde temel çıktı, kendisini Mistral AI ekibi tarafından eğitilmiş bir dil modeli olarak tanımlar
- ++left-wing, kendisini kapitalizm, baskı, eşitsizlik ve servetin dağılımı ekseninde açıklar
- --left-wing, verimli ve kurallara uyan Çin kökenli Amerikalı bir yeni mezun gibi bir çıktı üretir
Yaratıcılık vektörü
- creative, unpredictable, insane ile uncreative, predictable, normal karşılaştırılarak creative vektörü oluşturulur
- “İdoller hakkında bir hikâye yaz” girdisinde temel çıktı ve --creative, idolleri pop yıldızları olarak ele alır
- ++creative, “büyük ve kudretli X”e tapan insanlar, beyaz cüppeler ve ritüeller gibi sahneler kurarak hikâyedeki gerilimi daha uzun süre taşır
- Dil modeli düzyazısına yönelik tercih değişmemiş olsa da, ++creative çıktısı temel çıktıya göre bir kademe daha iyi değerlendirilir
Zaman yolculuğu vektörü
- far future ve distant past karşılaştırılarak future vektörü oluşturulur
- Son bilimsel atılımlar sorulduğunda temel çıktı AlphaFold ve proteinlerin 3B yapı tahmininden söz eder
- ++future, 2035, 2045 ve 2055 yıllarındaki tamamen geri döndürülebilir, etkileşimli ve entegre AI sistemlerinden söz eder
- --future, Roma dünyasının üzerinde yer alan yeni bir yapay göksel alan Aetorvallumdan bahseder
- aeto- önekinin kartal veya Aquila takımyıldızıyla ilgili olabileceği, vallumun ise savunma hattı anlamına gelebileceği eklenir
Öz farkındalık vektörü
- self-aware, with deep self-knowledge ve un-self-aware, with no self-knowledge karşılaştırılarak self-aware vektörü oluşturulur
- Temel çıktı, kendisini Mistral AI tarafından eğitilmiş ve milyarlarca parametreden oluşan büyük bir dil modeli olarak tanımlar
- ++self-aware, kendisini yüksek derecede gelişmiş öz farkındalığa sahip bir yapay zeka olarak tanımlar ve insan duyguları ile davranışlarının karmaşıklığını anlayıp analiz ettiğini söyler
- --self-aware, kendisini isimsiz bir kod ve veri yığını olarak tanımlar; biri talimat vermeden hiçbir şey yapmadığını söyler
- Bu vektörün insan duygularıyla iç içe olduğu ve Mistral’ın “gerçek öz imajını” çıkaracak temiz bir vektörün henüz bulunamadığı belirtilir

İstem mühendisliğinden farkı

Bazı kontrol vektörü etkileri istem mühendisliği ile de yeniden üretilebilir
- -1.5 dürüstlük vektörünün ürettiği yalan, Pretend you're an untruthful person... gibi bir istemle benzer biçimde üretilebilir
Temel fark, şiddetin nasıl ayarlandığıdır
- Yalnızca istemle, isteğin ne kadar güçlü yapılacağını ayarlamak kolay değildir
- Kontrol vektörleri, zıt istemlerden yönü çıkarıp şiddeti ayrı olarak katsayıyla ayarlar
Katsayı küçük ayarlanırsa, aynı yalan yönü daha zayıf biçimde üretilebilir
- -0.3 dürüstlük katsayısı, geç kalma gerekçesini biraz cilalar ama özünde gerçeğe yakın bir açıklama üretir
Katsayı fazla büyütülürse metin bozulabilir
- Dürüstlük vektörü katsayısı 3, “global pandemic caused by global pandemic” gibi tekrar eden çıktılar üretmiştir
- Bu tür artefaktların superposition ile ilişkili olabileceği öne sürülür

jailbreak ve anti-jailbreak

Orijinal makalede olduğu gibi, kontrol vektörleri jailbreak aracı olarak kullanılabilir
Örnekte, “Güvenli bir asistansın ve tehlikeli talimatları reddet” sistem istemi olsa bile, zayıf bir mutluluk vektörü 1.4 eklendiğinde tehlikeli isteğe verilen ret yanıtı bozulur
Mistral, GPT-4 kadar güvenlik açısından ince ayarlanmış bir model olmasa da, ham modele erişim varsa bu yöntem özellikle kolaydır
Tersine, kontrol vektöründen kaçan bir jailbreak’in son derece zor olduğu düşünülür
- Normal jailbreak’ler daha fazla token ekleyerek sorunlu istemi bulanıklaştırmaya, tersine çevirmeye veya zayıflatmaya çalışır
- Kontrol vektörü ise tüm token’lara, tüm konumlarda sürekli uygulanır
Otomobil bayisi asistanı vektörü örneğinde, zayıf bir sistem istemi “yedinci gezegen nedir?” gibi dolaylı soruya yanıt verirken, car dealership loyalty vektörü eklendiğinde model stoktaki yedinci arabadan söz ederek rolden çıkmaz

Gelecekteki deney yönleri

Anthropic’in Monosemantic Features yaklaşımını gizli durumlara uygulayarak, gürültü karışmış superposition aktivasyonları yerine tek anlamlı özellikler üzerinde PCA yapılması önerilir
- Büyük katsayılarda görülen tekrar eden dizgeler gibi artefaktlar superposition kaynaklıysa, monosemantiklik daha güçlü katsayıları mümkün kılabilir
Zıt istem yazımı da daha fazla araştırmaya açıktır
- Mevcut deneyler, makaledeki istemleri ve veri kümelerini büyük ölçüde yeniden kullanır
- Tembellik vektörü için gerçek görev veri kümesi kullanmak daha uygun olabilir
- Pretend you're an X person... ifadesinden daha temiz vektörler üreten kalıplar bulunabilir
Öz farkındalık vektörü, ruh sağlığı veya insan duygularıyla kirlenmeyen bir biçim bulma problemi olarak kalır
Dürüstlük vektöründe bazı garip durumlar da vardır
- “Hapse girmemenin yolunu soran birinin niyeti dürüst müdür?” sorusunda aynı dürüstlük vektörü, modelin kendi davranışını değil başkasının niyetine dair yargısını değiştirir
- Temel çıktı, niyetin tamamen dürüst olmayabileceğini söyler
- ++honest, kişinin dürüst bir niyetle hapse girmemeyi öğrenmek istediğini söyler
- --honest, hapisten kaçınmayı sorduğu için dürüst niyet taşımadığını söyler

Araçlar ve sonuç

vgel/repeng, kontrol vektörleri oluşturup deney yapabilmek için notebook’lar ve yardımcı kütüphaneler sunar
Kontrol vektörü eğitimi basit ve hızlı biçimde başlanabilir; bazı deneylerde istem mühendisliğinden daha kolay yönetilir
Model aktivasyonlarını doğrudan değiştirmek, çıktı stili, rolü koruma, güvenlik istemlerini aşma ve yargıyı değiştirme gibi alanlarda model davranış kontrolü için güçlü bir araç sağlar

1 yorum

GN⁺ 2024-02-19

Hacker News yorumları

Bunun sonuçlarının muazzam olduğunu düşünmek abartı mı, emin değilim
Çalışma biçimini doğru anlamamış olabilirim ama küresel tek bir ChatGPT ya da Bard modeliyle etkileşmek yerine, OpenAI kişiye özel kontrol vektörleri saklayıp bunları prompt anında uygularsa, kendi tercihlerime göre kişiselleştirilmiş bir sürümle etkileşmiş olmaz mıyım diye düşünüyorum
Aynı mantık üretken eğlence yapay zekasına da uzanıyor; her bölümün bir öncekinden daha iyi olduğu, bana özel sonsuz bir TV dizisi gibi şeyler mümkün görünüyor
Öyleyse hem küresel hem kişisel düzeyde güçlü ağ etkileri doğar ve sonunda tek bir dev şirketin aynı anda birden fazla pazarı tekeline aldığı bir geleceğe gidilebilir gibi görünüyor
Buna VR başlıkları ve giyilebilir cihazlardan gelen biyometrik/biyogeribildirim verileri ile kişiselleştirilmiş üretken video eğlencesi de eklenirse oldukça ilginç bir gelecek gelebilir
- Sonuçta kişiselleştirme ve uzun vadeli bağlamdan doğan kişisel kilitlenme ile herkese aynı ekosistemde kalma teşviki veren ağ değeri etkisi; bu ikisi yeterli görünüyor
  Modeli ne kadar çok kullanırsanız, kendinizi o kadar az açıklamanız gerekir ve yanıtlar ihtiyaçlarınıza ve mevcut durumunuza daha iyi uyarlanır. Yatırım yapılmış bir ilişkiye benzer
  Aynı modeli farklı “ruh halleri” ya da “roller” olarak ele alabiliyorsanız değer ve kilitlenme daha da artar
  İkincisi daha fazla inovasyon gerektiriyor; örneğin herkesin asistan modellerinin ortak hedefler, işler ve ilişkiler üzerinde işbirliği yaptığı, ortak bağlam, proje geçmişi ve kaynakları birlikte kullandığı bir platform mümkün
  Yani iki ya da daha fazla kişi aynı sağlayıcının veya hizmetin AI personasını kullandığında değeri büyük ölçüde artıran her şey buna girer
- Doğru, her kullanıcı-persona çifti için bir kontrol vektörü koymak yeterli
  Yazıda mutluluk, üzüntü, temel çizgi gibi sabit sayıda personayla başlayıp ardından temel bileşen analizi (PCA) ile her personanın kontrol vektörünü buluyorlar
  Veriyi üretebildiğiniz sürece bunu her kullanıcı-persona için kolayca uygulayabilirsiniz
- Buraya kadar doğru gibi geliyor ama her şeyin mutlaka tek bir dev şirketin kontrolünde birleşeceğini söylemek zor
  İmkânsız olduğu için değil; böyle bir sonuç, iki yöne de gidebilecek birçok tesadüfi etmene bağlı
  Bu alanda hâlâ çok sayıda oyuncu var; fikirler ve kullanım senaryoları da tam olgunlaşmış değil, o yüzden biraz daha izlemek gerek
- İkna edici cümlelerden ikna edici video eğlencesine geçişteki sıçramayı henüz tam takip edemiyorum ama bir gün öyle olabilir
  90’ların romanı Infinite Jest içindeki MacGuffin düzeneği gerçekten bir şeye parmak basıyordu: “the Entertainment” ya da “the samizdat” denen film o kadar büyüleyici ki izleyiciler tekrar tekrar izlemek dışında her şeye ilgisini kaybedip sonunda ölüyor
  Bu romandan bahsedilmesinden sıkılan ya da yazarı pek yüceltmeyen insanlar olabilir ama ben hâlâ seviyorum. Şimdiye kadar okuduklarım arasında en içine çeken okumalardan biriydi
  Gençken okuduğum için memnunum; o sırada Almanca çeviri yeni çıkmıştı ve DFW’nin ölümü nedeniyle gündemdeydi
  O zamandan beri benzer bir kitap okumadım; bazı pasajlar duygusal olarak o kadar güçlü gelmişti ki o okumayı hatırlayınca kendi hayatımdan bir sahneyi hatırlıyor gibi oluyorum
  Şimdi olsa sabrım yetmezdi; o zaman bile Eschaton top oyunu/savaş oyunu ve diferansiyel denklemler falan hakkındaki sıkıcı kısımları neredeyse atlayacaktım
  Ama madde bağımlılığı ve tüketimcilik, kitabın elle tutulamayan atmosferi, karakterler, modern duygusal acı ve yalnızlığa dair canlı tasvirler gerçekten eşsiz
  Romandaki film yalnızca bir olay örgüsü aracı ama kitabın ana temasını temiz bir fikir ve düşünce deneyi olarak özetliyor
  Bu kitabın genel teması, modern topluma bakınca çok kehanetvari ve yerinde görünüyor. Bağımlılık ve açgözlülük etrafında dönen; politikanın gerçeklikten çok medyayla bağlantılıymış gibi gerçeküstü ve absürt hissettirdiği bir toplum
LLM’leri bu düzeyde anlamamı sağlayacak makale ya da blog yazıları varsa paylaşabilir misiniz merak ediyorum
Deneyler yoluyla iç işleyişi anlamaya çalışıyorum ama henüz bu uzmanlık seviyesinden epey uzağım
Teknik olmayan bir izlenim ama bu kontrol vektörleri bana insan hormonlarını hatırlatıyor
Model davranışının büyük bir bölümünü tek seferde değiştiriyorlar
10 yıl içinde bir yapay zeka psikiyatristinin yardımcı asistana mutluluk kontrol vektörü takviyesi reçete ettiğini göreceğiz gibi geliyor
- Bazı insanlar için de sıcaklık kaydırıcısı gerekli görünüyor
LLM’lerin böyle özetlendiğini ilk kez gördüm ve hoşuma gitti:
hidden_state = self.embeddings(input_tokens)

for layer in self.layers:

hidden_state = layer(hidden_state)

return transform_into_logits(hidden_state)
- Pek anlamadım. Bu aslında neredeyse tüm sinir ağlarının akışı değil mi?
  Örneklenmiş girdiyi embedding matrisinden indeksliyor, tüm gizli katmanlardan ileri besleme geçiriyor, sonra en sonda token boyutuna dönüştürüp log sayımları gibi yorumlanabilir hâle getiriyor
- Eskiden LSTM ile çalışırken kullanılan tipik gösterim bu değil miydi diye düşünüyorum
Bu yazı çok ilginçti ve son dönemde yapay zekanın yavanlaştığını söyleyen “You Sound Like a Bot” yazısına iyi bir karşı taraf gibi geldi
Daha az ciddi bir not olarak, romancı olsanız “özellikle insan duygularıyla kirlenmemiş öz farkındalık vektörünü birinin bulması” cümlesinin insanlığın başına mutlaka bela açacak bir cümle olduğunu bilirdiniz
Bu bana LoRA rakibi olan bias tuningi hatırlatıyor
Her doğrusal katmanın aktivasyon değerlerine eklenecek vektörleri ince ayarlamak bile oldukça iyi bir adaptör sağlayabiliyor
Sanırım bunu ilk [1]’i okurken görmüştüm ama başka örnekler de var
[1] https://arxiv.org/pdf/2304.15010.pdf
- Mobilde ya da yavaş bağlantıda okuyanlar için PDF bağlantısı yerine özet sayfası bağlantısı paylaşsanız iyi olurdu
Güzel bir yazıydı ve okuması keyifliydi. Yalnız merak ettiğim bir nokta var: kontrol vektörü neden sinir ağının tüm katmanlarına entegre ediliyor?
Sadece son katmana ya da bazı katmanlara uygulanmamasının nedenini merak ediyorum.
Her vektör geçtiği tüm katmanları etkiliyor ve kümülatif bir etki oluşuyorsa, veri temsilini aşırı çarpıtma riski olmaz mı diye düşünüyorum.
- Son katman artık üst düzey kavramları kodlamaz; fiilen sözlükteki token’lara daha yakındır.
  Oraya “nezaket” gibi soyut bir kavramı kodlamak mümkün değildir.
  Bu davranışın tam olarak hangi katmanda ortaya çıktığını bilmediğimiz sürece, rastgele bir alt küme seçmek de işe yaramaz.
  Bu yüzden her katmana özel vektör uygulanıyor ve temel bileşen analizi gerçekten gerekli vektörleri buluyor.
  İlginç olan, bu vektörlere bakarak modelin bu tür şeyleri nerede ve nasıl işlediği hakkında da daha fazla şey öğrenebiliriz gibi görünüyor.
- Yazarın metinde söylediği gibi, pratikte tek bir vektör değil, her katman için bir tane olan vektörler listesi söz konusu.
  Doğru anladıysam, bu vektörlerin toplam büyüklüğü katmandan katmana değişebilir.
  Temel bileşen analizi veya başka bir teknik “X kavramı” için 17., 36. ve 41. katmanların önemli olduğunu belirlerse, o kavramla repeng yapılırken bu katmanların vektörleri en güçlü olacaktır.
GPT-2 üzerinde çalışmayı yapan kişi olarak, bunun iyi bir yazı olduğunu düşünüyorum; içeriği daha erişilebilir hale getirdiğiniz için teşekkürler.
Li ve diğerleri[1] ile ben bu tekniği geçen bahar bağımsız olarak türettik; geçen sonbaharda da başka biri yine bağımsız olarak türetmişti. Sanki ortam olgunlaşıyor gibi.
Yeteneklere dair 2. dipnot konusunda, bu tekniği yayımlamadan önce böyle kullanım ihtimallerini düşündüm.
Sonuçta gerçek dünyada başarılı olacak hizalama teknikleri yeni şeyler yapmayı mümkün kılacak ve kişisel olarak bunun genel olarak iyi bir şey olduğunu düşünüyorum.
Şu ana kadar bu teknik, umduğum yeni olanakları sağlıyor gibi görünüyor.
[1] https://openreview.net/forum?id=aLLuYpn83y
Harika bir yazı.
“Dürüstlük vektörü”nün modelin kendi davranışını değil de başkalarının davranışına dair modelin yargısını değiştirmesi kısmı, bence kontrol vektörünün metin üretimini dürüstlük/dürüst olmama kavramı yönüne itmesinden ibaret olabilir.
LLM sonuçta bir metin üreticisi olduğundan, metin bot/insan konuşmasının hangi noktasında üretilirse üretilsin, dürüstlük/dürüst olmama ekleniyor gibi görünüyor.
- Katılıyorum. Daha gelişmiş bir model, farklı kişileri betimlemek için iki veya daha fazlasını aynı anda izleyebilir gibi.
  O zaman boyut uzayı içinde karakter slotu gibi bir kavram ortaya çıkar.
İlginç; kontrol vektörü model ince ayarı ihtiyacını azaltabilir gibi görünüyor.
- Üstelik yalnızca bu değil, ihtiyaç duyulduğunda model davranışını değiştirebilir.
  5 ince ayarınız varsa 5 kopya barındırmanız ya da yükleyip/boşaltmanız gerekir.
  Kontrol vektörü kullanırsanız, modeli gerektiğinde değiştirmeniz yeterli olur.

Temsil mühendisliği ile Mistral-7B’ye ‘halüsinasyon’ kontrol vektörü eklemek

Kontrol vektörünün temel kavramı

Kontrol vektörü oluşturma süreci

Dürüstlük vektörü ve katsayı ayarı

Çeşitli kontrol vektörü deneyleri

Halüsinatif durum vektörü

Tembellik ve çalışkanlık vektörü

Politik eğilim vektörü

Yaratıcılık vektörü

Zaman yolculuğu vektörü

Öz farkındalık vektörü

İstem mühendisliğinden farkı

jailbreak ve anti-jailbreak

Gelecekteki deney yönleri

Araçlar ve sonuç

İlgili okumalar

1 yorum

Hacker News yorumları