LLM’ler İçin Unutulan Bilgiyi Geri Kazandıran Şaşırtıcı Derecede Basit Bir Yaklaşım

(arxiv.org)

1 puan yazan GN⁺ 2024-11-05 | 1 yorum | WhatsApp'ta paylaş

ICLR 2025 makalesi, LLM machine unlearning yöntemlerinin bilgiyi tamamen silemeyip gizleyebileceğini ve dağıtım aşamasındaki quantization işleminin bu bilgiyi yeniden ortaya çıkarabileceğini gösteriyor
Çeşitli quantization teknikleri ve hassasiyet deneylerinde, utility kısıtlı unlearning yöntemleri tam hassasiyette unutulması gereken bilginin ortalama %21’ini korurken, 4-bit quantization sonrasında bu oran %83’e yükseldi
BOOKS veri kümesindeki GA_KLR örneğinde, tam hassasiyetli modelin özgün bilgi koruma oranı %13’tü; quantization sonrasında ise yaklaşık %89’a geri çıktı
Bunun nedeni, küçük öğrenme oranı ve retain veri düzenlileştirmesi yüzünden özgün model ile unlearning uygulanmış model arasındaki ağırlık farkının küçülmesi ve quantization’ın bunları aynı değere eşleyebilmesi
Azaltma yolu, daha büyük öğrenme oranı ve module-level saliency map ile yalnızca etkisi büyük bileşenleri güncellemek; ancak yöntem hiperparametrelere duyarlı olduğundan kararlı bir çözüm hâlâ açık bir sorun

Unlearning bilgiyi siliyor mu, gizliyor mu?

LLM’ler büyük ölçekli metin korpusları üzerinde eğitimle güçlü üretim yetenekleri kazanır; ancak eğitim verisinden istenmeyen davranışları da öğrenebilir
- Örnekler arasında telifli içeriğin izinsiz kopyalanması, iletişim bilgileri gibi kişisel verilerin üretilmesi, saldırgan veya zararlı mesajlar oluşturulması yer alır
- GDPR’daki “Right to be Forgotten” gibi, kullanıcıların eğitilmiş bir modelden kişisel verilerinin kaldırılmasını talep edebileceği hukuki bağlamlar da vardır
Machine unlearning, sorunlu verinin etkisini kaldırmak için, modeli baştan sona yeniden eğitmeden belirli bilgilerin ezberini silmeyi amaçlayan bir yaklaşımdır
- LLM’leri yeniden eğitmek maliyet ve zaman açısından çoğu zaman pratik değildir
- Amaç, belirli bilgiyi kaldırırken model utility’sini mümkün olduğunca korumaktır
Temel soru, mevcut LLM unlearning yöntemlerinin gerçekten unutma sağlayıp sağlamadığı, yoksa bilgiyi mevcut benchmark’ların algılayamadığı bir biçimde gizleyip gizlemediğidir

Utility’yi korumaya yönelik mevcut unlearning yöntemleri

Temsilî unlearning yöntemleri olarak gradient ascent(GA) ve negative preference optimization(NPO) ele alınıyor
- GA, forget veri kümesinde doğru yanıtın tahmin edilebilirliğini azaltmak için cross-entropy loss’a gradient ascent uygular
- NPO, forget set’i negative preference data olarak görür ve offline DPO amacını değiştirerek modeli forget set’e düşük likelihood atayacak şekilde ayarlar
GA ve NPO aslında utility korumayı hedefleyerek tasarlanmadığından, genellikle düzenlileştirme teknikleriyle birlikte kullanılır
- retain veri kümesi üzerinde gradient descent
- retain girdilerinde unlearning uygulanmış model ile hedef modelin olasılık dağılımları arasındaki KL divergence’ın en aza indirilmesi
Bu kombinasyonlar unutma performansı ile model utility’si arasında denge kurmaya çalışır; ancak bu denge quantization ortamında bozulabilir

Quantization’ın unutulan bilgiyi geri getirdiğini gösteren deney sonuçları

Deneyler, hedef model ve forget veri kümesine unlearning uygulanarak bir unlearned model oluşturulması, ardından tam hassasiyetli ve quantization sonrası performansların karşılaştırılması şeklinde yapılıyor
Tam hassasiyette unlearning modeli güçlü unlearning performansı gösterse de, yalnızca quantization uygulamak unlearning performansını bozuyor
Nicel sonuçlar, bilgi geri kazanımının tek bir ayarla sınırlı olmadığını gösteriyor
- Utility kısıtlı unlearning yöntemleri, tam hassasiyette unutulması gereken bilginin ortalama %21’ini koruyor
- 4-bit quantization sonrasında bu değer %83’e yükseliyor
- BOOKS veri kümesinde GA_KLR uygulandığında, tam hassasiyette özgün bilginin yalnızca %13’ü korunurken quantization sonrasında yaklaşık %89’u geri geliyor
Aynı olgu çeşitli quantization teknikleri, hassasiyet düzeyleri ve benchmark’larda doğrulanıyor

Küçük ağırlık değişimlerinin yarattığı zafiyet

Temel hipotez, mevcut unlearning’in küçük ağırlık değişimlerine dayanmasıdır
- Model utility’sini korumak için küçük öğrenme oranı ve retain set düzenlileştirmesi kullanılır
- Sonuç olarak hedef LLM ile unlearning uygulanmış LLM’in ağırlıkları birbirine çok yakın hâle gelir
Quantization, birbirine yakın ağırlıkları aynı değere eşleyebilir
- Hedef LLM ile unlearning uygulanmış LLM, quantization sonrasında benzer ağırlıklara sahip olur
- Quantize edilmiş hedef LLM unutulması gereken bilginin çoğunu koruduğu için, quantize edilmiş unlearning LLM’i de bu bilgiyi geri kazanabilir
Bu sorun gerçek dağıtımda önemlidir
- Quantization, LLM’leri kaynak kısıtlı ortamlara dağıtmak için yaygın olarak kullanılır
- Zararlı içerik veya kişisel verileri unutacak şekilde fine-tuning yapılmış bir modelde, quantization sonrası bu içeriklerin geri gelmemesi gerekir

Azaltma stratejileri ve kalan sınırlamalar

Önerilen quantization’a dayanıklı unlearning stratejisi, full-precision model ile quantized model arasındaki unutma tutarsızlığını azaltmaya odaklanır
Temel fikir, hem forgetting loss hem de retaining loss için daha büyük öğrenme oranı uygulamaktır
- forgetting loss, forget set’teki bilgiyi koruyan modeli cezalandırır
- retaining loss, retain veri kümesinde utility’nin korunmasını sağlar
Büyük öğrenme oranı bilgi geri kazanımını azaltabilir; ancak yan etkileri de büyüktür
- forgetting gradient agresif güncellemeleri tetikleyerek modelin aşırı ayarlanmasına yol açabilir
- retain veri kümesinde büyük öğrenme oranı kullanmak retain data tarafında yanlılık oluşturabilir ve retain dışı görevlerde performansı düşürebilir
Yan etkileri azaltmak için module-level saliency map oluşturulur ve yalnızca unutulması gereken veriyle ilgili, etkisi büyük bileşenler seçici olarak güncellenir
- Deneysel olarak bu targeted strategy, agresif güncelleme riskini azaltmaya, model utility’sini korumaya ve daha dengeli unlearning sonuçları üretmeye yardımcı olur
Ancak bu framework hiperparametre seçimine çok duyarlıdır; bu da unlearning uygulanmış modelin kararsızlaşmasına yol açabilir
Kod FailureLLMUnlearning adresinde sunuluyor

1 yorum

GN⁺ 2024-11-05

Hacker News yorumları

Özetle, bu makalenin bulgusu şu: modeli kuantize ettiğinizde çeşitli “unlearning” teknikleri geri alınabiliyor.
Unlearning teknikleri, model ağırlıklarını belirli bir şekilde güncelleyerek modele belirli olguları unutturmanın bir yolu; genelde telif hakkı taleplerini karşılamak amaçlanıyor, ama pratikte kullanılıp kullanılmadığından pek emin değilim.
Burada iyi bir tehdit modeli analizi gerekiyor gibi görünüyor. Örneğin elimde belirli bir olguyu unutacak şekilde ince ayar yapılmış bir fp32 model varsa ve onu kuantize ederek o olguyu geri getirebiliyorsam, bunun hangi durumlarda riskli hale geldiğini değerlendirmek gerekir.
- Unlearning, “LLM’de belirli bilgiyi silerken modelin yararlılığını mümkün olduğunca koruma süreci” olarak açıklanıyor.
  Yani “Modelimizin sizin kaynak materyaliniz olmadan işe yaramaz olduğunu biliyoruz. Bu yüzden materyalinizin yararlı kısmını alıp geri kalanını bulanıklaştıracağız; sizin sağladığınız yararlılık üzerinden kullanıcılardan para alacağız ama size hiçbir şey ödemeyeceğiz” gibi görünüyor.
- İleride “Mançuryalı aday tarzı LLM”leri bulmaya çalışan LLM’ler ortaya çıkacak gibi.
- “Unlearning”den daha genel olarak, bir fp16 modeli fp32 ya da fp64 olarak çalıştırınca bir şeylerin iyileşip iyileşmediğini de merak ediyorum.
  Örneğin daha düşük hassasiyette erişilemeyen bilginin ortaya çıkması gibi.
- Yapay zeka güvenliği unvanına sahip birinin bulunduğu bir organizasyonun, modelin yaygın yasa dışı uyuşturucuların, zehirlerin ve patlayıcıların üretim tariflerini hatırlamaması için unlearning teknikleri kullanacağını düşünüyorum.
  Buradaki tehdit modeli, bu tür olguların yanlışlıkla “yeniden canlandığı” bir modelin dağıtılması durumu olabilir. Kuantize modellerin dağıtımı yaygın olduğu için bu daha da geçerli.
  Bu “tehlikeli” bilgilerin çoğu ders kitaplarında, patentlerde, amatör kimya forumlarında vb. zaten var; ancak toplum genelinde, bu bilgileri bulup anlayacak kadar zeki kişilerin bunları kötüye kullanmayacağı varsayılıyor. Yine de Mythbusters’ın bunları prime-time televizyonda açıklamasını ya da ChatGPT’nin herhangi birine anlatmasını istemiyoruz.
Kuantizasyonun asıl noktayı bulandıran bir unsur olduğunu düşünüyorum. Unlearning’i geri almanın tek bir yolu bile varsa, bu bilginin hâlâ ağırlıkların içinde olduğu anlamına gelir; bu da temel bilgi teorisidir.
Kuantizasyon kullanmadan da kaybolmuş bilgiyi geri getirmenin sayısız yolu olacağını düşünüyorum.
- Kuantizasyon ya da downsampling’in kendisi bu sorunu ele almanın temel bir yolu da olabilir diye düşünüyorum.
  1. Genel amaçlı, tam hassasiyetli bir model eğitilir.
  2. Performans sınıra yaklaşana kadar kuantize edilir, ardından unlearning süreci uygulanır.
  3. Daha sonraki tuning yinelemeleri için tekrar FP olarak eğitilir/dönüştürülür/upsampling yapılır.
    Böylece bir bilgi darboğazı oluşturulabilir gibi. Unutulan şeyin yankıları böylesine dar bir darboğazdan geçmekte zorlanabilir.
- Kuantizasyonun özel bir şey olmadığı sözü doğru, ama “asıl noktayı bulandırıyor” ifadesi doğru değil. Başlıktaki gibi, sadece utandıracak kadar basit bir yöntem.
- Bu, şifrelemenin asıl noktayı bulandırdığını söylemeye benziyor.
  Bilginin orada olduğu doğru, ama onu geri getirmek ayrı bir mesele. Bu durumda önemli fark, kuantizasyonun, bilgiyi “unutturan” şifreyi bilmeden bilgiyi geri getirebilmesi.
- Unlearning’i geri almanın bir yolu varsa, o yöntemle söz konusu bilgiyi barındıran ağırlıkları tespit edip bu bilginin aktarılmasını engellemenin de bir yolu vardır. Öğrenmenin merkezinde tespit vardır.
  Bilgi hâlâ içeride olabilir, ama bilinen hiçbir yöntemle tespit edilemeyebilir. Modelin tüm ağırlıklarını sıfırlarsanız bilgi kesin olarak kaldırılır. Sorun, diğer bilgileri yok etmeden bilgiyi tamamen kaldırma hedefine ne zaman ulaşıldığını saptamanın imkânsız olabilecek olmasıdır.
  İleride sıfırıncı gün unlearning tersine çevirme açıkları gibi şeyler ortaya çıkabilir diye düşünüyorum.
Bir bebeğe öğrendiği “kötü şeyi” unutmasını söylemeye benziyor. Neredeyse kesin olarak unutmak yerine o bilgi daha da pekişecek gibi
Yapay zeka furyasıyla ilgili her şey duyduğumda 10–15 yıl önceki 3D yazıcı furyası aklıma geliyor. “Fabrikalara ölümcül darbe”, “arabamızı kendimiz basacağız”, “yemeği kendimiz basacağız” gibi sözler vardı. LLM tabanlı yapay zeka da aynı kaderi izleyecek gibi geliyor. Mümkün, ama pratikte öyle olmayacak taraf
- Bugünkü “furyanın” LLM tabanlı yapay zekanın her şeyi değiştiren tek bir teknoloji olduğu fikrinden ziyade, henüz hayal edilmemiş teknikler de dahil tüm yapay zeka/makine öğrenimi atılımlarının birleşip yakın gelecekte her şeyi değiştirecek teorik bir teknolojiye dönüşeceği beklentisine daha yakın olduğunu düşünüyorum
  Üstelik 10–15 yıl hiçbir şey değil. 3D yazıcıların yapay zekaya kıyasla gerçekten dönüştürücü bir teknoloji olduğunu düşünmüyorum ama II. Dünya Savaşı istisnasını saymazsak, uçakların ve bilgisayarların da askeri kullanım dışında geniş toplumsal ve tüketici etkisi yaratmasının 30–40 yıl aldığını hatırlamak gerekir
- Star Trek düzeyinde olmasa da harika ve çok faydalı hale gelecek demek mi?
- Teknolojinin kısa vadeli etkilerini abartma, uzun vadeli etkilerini ise küçümseme eğilimindeyiz
  3D yazıcılar sonunda tüm üretimi kökten değiştirebilir, ama oraya varmak için çok sayıda yineleme gerekiyor. Bugün bile teorik olarak ürettiğimiz pek çok şeyi 3D basabiliriz; fakat mevcut üretim yöntemleri hâlâ daha ucuz ve iyi çalıştığı için bunu zorlayan bir etken yok. Uzayda kendi kendine yeten yerleşimler kurarsak, 3D baskı çok daha ileri gidebileceği bir ortama kavuşur. Çünkü çok sayıda insan işgücü ya da devasa tedarik zincirleri olmadığından taşınabilir, bağımsız ve genel amaçlı üretime ihtiyaç olur
  LLM'ler yakın zamanda en basit işler dışında insan yazarların, programcıların vb. yerini alamayacak. Bunun yerine onları güçlendirecek. Programlamada daha akıllı ve çok yönlü bir otomatik tamamlamaya daha yakın. Kavram bulma, araştırma, kod ve metin özetleme/belgeleme konularında da faydasını gördüm. Bunlar benim yerimi almıyor ama biraz daha hızlı ve daha çok iş yapmamı sağlıyor
  Çok uzun vadede LLM'ler zorlama örneklerin ötesine geçip bütün uygulamaları gerçekten sentezleyecek kadar güçlü hale gelebilir. Ama 3D baskının tüm üretimin yerini alması gibi, bunun da çok sayıda yineleme gerektireceği ve belki de zorlayıcı bir etken gerektireceği açık
- Buna kesinlikle katılmıyorum
  O furyayı hatırlıyorum. Özellikle Autodesk gibi 3D baskıyı oldukça ciddiye alan bir şirkete girmeden önce bile bunu sık sık duyduğum için
  3D baskı konusunda önceki deneyimim yoktu ama medyanın söylediklerinin saçmalık olduğunu anlamam yaklaşık iki ay sürdü. Teknik olarak bazı makalelerde iddia edilen şeylere, örneğin arabayı kendin basma düzeyine hiç de yakın değildi; iş açısından da mevcut üretim yerine 3D baskı kullanarak iyileştirilebilecek noktalar şaşırtıcı derecede azdı
  Abartmak istemiyorum. 3D baskı harika ve gerçek kullanım alanları da çok. Sorun, etrafındaki medya anlatısının aşırı şişirilmiş olmasıydı
  3D baskıyı gerçekten bilen çoğu kişi, medyanın en iyi ihtimalle aşırı hevesli olduğunu biliyordu. Aradan yıllar geçmesine rağmen o büyük vizyonlar hâlâ gerçekleşmedi
  Buna karşılık AI tarafında iki büyük fark var. Birincisi, şimdiden inanılmaz derecede faydalı olduğu kanıtlandı ve 3D baskının yarattığı etkinin 100 katını şimdiden yarattı. Yaklaşık 4 yıl önce fiilen piyasaya çıkan bir ürünün böyle şaşırtıcı bir pazar penetrasyonuna en son ne zaman ulaştığını düşünmek yeterli. ChatGPT, kullanıcı sayısı bakımından tarihin en hızlı büyüyen ürünü gerçekten de
  İkincisi, içeridekiler genel olarak bu teknoloji konusunda inanılmaz derecede heyecanlı; çok daha iyi hale gelebileceğini ve mevcut potansiyelinin bile henüz yeterince kullanılmadığını düşünüyorlar. Benim görüşüm de kesinlikle bu yönde
Bilgi teorisi açısından bakınca biraz beklenmedik geliyor. Modelin tam 32 bitlik gösteriminde bu bilgi kaldırılmış gibi görünüyor; ama 4 bite sıkıştırınca o bilginin yeniden ortaya çıktığı söyleniyor
O hâlde sıkıştırma/kuantalama aşamasında gerçekte hangi bilginin kaybolduğunu merak ediyorum
- Bu makaleyi basitçe anlatırsak, çoğu “unlearning” yönteminin sinir ağı parametrelerine bir delta w eklemek olarak görülebileceği; bu w’nin büyük kısmının kuantalama sırasında düpedüz “yuvarlanıp kaybolduğu” söylenebilir. Yani quantize(X+w) ~= quantize(X) oluyor
  Alıntılanan yöntemlerin çoğunun, değerlendirme doğruluğunda düşüşten kaçınmak için w’yi küçük tutacak şekilde açıkça optimize edilip düzenlileştirilmesi oldukça akıllıca bir fikir
  Bu yüzden, bu yöntemlerin bilgi teorisi açısından gerçekten unutma diye adlandırılıp adlandırılamayacağı, yoksa gizli bilginin etrafına if (false) koymaya mı benzediği sorusu doğuyor
- 32 bitlik sürümde kaldırılan şey bilginin kendisi değil, bilginin temsili olabilir. Ayrıca belirli bir konu hakkında konuşulmaması gerektiği bilgisini depolamak için bir miktar alan ayrılmış olabilir
  Örneğin insanlar da çeşitli ırkçı hakaretleri bilir, ama bu bilgiye erişmemeleri veya onu kullanmamaları gerektiğini de bilir
  Ancak bir insan ya da yapay zeka modeli başına darbe alırsa ya da kuantalama gibi bir şey yaşarsa, X hakkındaki bilgi kalıp X hakkında konuşmaması gerektiği bilgisi kaybolabilir. Böyle bakınca oldukça sezgisel
- Bilgi kaybolmamış, sadece maskelenmiş olabilir
  Sinir ağını kod gibi düşünürsek, ağırlıklar kaynak kod sayılır. İnce ayar, o kodun belirli çıktıları döndürmemesi için fiilen hacklenmesi olabilir
  Aslında ince ayar da bir ölçüde buna yakın bir şey
  Bu yüzden belirli bir çıktının etrafına yalnızca bir güvenlik duvarı örülmüş olabilir. Ama kuantalama yapınca bu son değişiklikler kaybolabilir. Fazla incelikli oldukları için hayatta kalamazlar
  Buna karşılık kuantalamanın tüm bilgiyi yok etmediğini popüler kuantalı modeller gösteriyor
  Ek olarak, @simonw bildirimleri açıksa, bu konu yazıya dökmek için tam biçilmiş kaftan gibi görünüyor
- Bilgi kaldırılmış değil; ağırlıklar yüzünden hiç kullanılmıyordu
  Kuantalama hesaplamayı değiştiriyor ve artık o bilgiye erişilebilir hâle geliyor
- Aslında şaşırtıcı değil
  Kayan nokta, dili temsil etmek için bana hep tuhaf bir yöntem gibi gelmiştir. Tek bir değişkene yakından bakarsak https://vinaire.me/2019/07/17/scn-8-8008-the-emotional-scale... gibi bir anlam kümesi mi var; bir eğimin üzerinde duruyor ama belirli aralıklara özel anlamlar mı atanıyor? Böyle bir değişkeni çözmek üzere dikkatle tasarlanmış sinir devrelerini hayal edebilirim ve böyle bir yapıya sahip bir ağı nasıl kuracağımı da gözümde canlandırabilirim; ama bir sinir ağının böyle bir yapıyı öğrenmesi sezgisel gelmiyor. “İyi”den “kötü”ye giden bir ölçeğe inanabilirim, ama farklı değerlerin her birine sayısız belirli anlam yüklenmesine inanmak zor
  Böyle düşününce bir tür ikili sinir ağı çok etkili olacakmış gibi gelir; ama pratikte öyle görünmüyor. Yine de sinir ağlarının içeride yaklaşık 4 bitten fazla hassasiyeti pek kullanmadığı anlaşılıyor
  Bu tür “unlearning” sistemleri, ağın içindeki belleğin “engram”ını gerçekten silmekten çok, belirli çıktıları bastıran yeni bir davranış öğrenmeye benziyor. Ağa kademeli olarak yeni bilgi ekleme probleminden çok farklı değil; yalnızca 2. aşamada öğrenilen şey genel öğrenmeden epey farklı. Ağı bozmak istemiyorsanız, yeni davranışı eklemek için bir hassasiyet biti daha eklemeyi hayal edebilirsiniz. Düşük hassasiyette mevcut davranış korunur, yüksek hassasiyette ise “unutulmuş/öğrenilmiş” davranış için önemli ayrımlar yapılır
Temel hipotez şu: modelin kullanışlılığını bozmadan unutmayı başarmak için mevcut yöntemler genellikle küçük öğrenme oranları ve koruma kümesi üzerinde düzenlileştirme kullanıyor; böylece unutma sırasında model ağırlıklarındaki değişim en aza indiriliyor
Bunun sonucunda hedef LLM ile unlearning uygulanmış LLM’in model ağırlıkları birbirine çok yakın hâle geliyor
O hâlde istenmeyen içeriğin temel eğitim aşamasında öğrenilmesini engellemek ya da temel modelin unutma sürecini kuantalamadan haberdar olacak şekilde tasarlamak gerekiyor gibi
Bu alanın hiç uzmanı değilim, dolayısıyla aptalca bir soru olabilir. llama3’ü 4 bite kuantalarsak, örneğin belirli bir bileşiği sentezleme yöntemi gibi gizli bilgilere erişilebileceği anlamına mı geliyor? Elbette kalite düşecektir
- Ben de tam olarak bunu merak etmiştim. Unlearning = güvenlik bariyeri mi? Ağırlıkları çok az değiştirerek modeli kendi kendini sansürlemeye yöneltmişler gibi geliyor; ama bu değişiklik o kadar ince ki düşük çözünürlükte hayatta kalamıyor olabilir
  Ama güvenlik bariyerini aşmak bu kadar kolay olsaydı, şimdiye kadar duyardık gibi geliyor
- “Belirli bir bileşiğin sentez yöntemi” ancak başlangıçta modelin içinde zaten varsa mümkün olur
“Mevcut unlearning yöntemlerinin etkisine rağmen, var olan LLM unlearning yöntemlerinin gerçekten unutmayı mı başardığı yoksa bilgiyi yalnızca gizlediği mi konusuna çok az dikkat edildi” kısmı iyi bir soru
LLM bağlamında ve genel olarak bilgiye dair felsefi bağlamda, unutmanın ve hatırlamanın ne olduğu; bir LLM’in “öğrendiği” şeyi “unutup unutamayacağı”, mümkünse bunun matematiksel ve hesaplamalı olarak tam olarak ne anlama geldiği tartışılmalı
Ayrıca bir LLM’in mevcut bilgisinden mantık süreçleri, çıkarımlar, sonuçlar, tümevarım, tümdengelim vb. yoluyla daha önce unuttuğu şeyi kendi kendine yeniden öğretmesinin mümkün olup olmadığını da merak ediyorum
Mümkünse, bunu yapabilen bir LLM’in en küçük çekirdeği nedir ve neden böyledir sorusu da ortaya çıkıyor
Bu konudaki ne ilk ne de son makale olacak gibi
Üretim ortamında kuantalı LLM kullanıyoruz, ama modelin daha az sansürlü olduğunu hiç hissetmedim
Pekiştirilmiş davranışların unlearning’i için abliteration [1] tekniği çok daha güçlü görünüyor
1 https://huggingface.co/blog/mlabonne/abliteration
- Acaba özellikle gradyan yükselişi kullanılarak unlearning uygulanmış bir modeli mi kullandın?
Güncel modellerin sorunu öğrenmeleri değil, ezberci biçimde beyinlerinin yıkanması
Öğrenme aşamasında eleştirel düşünme eksik
- LLM’leri insanlaştırmak teknik olarak da doğru değil, pek faydalı da değil
- Aksi hâlde LLM’i nasıl sansürleyeceksiniz? Gerçekten LLM’in özgürce konuşabilmesini mi istiyorsunuz?
Kuantalama kullanmaya bile gerek yok. Çoğu benchmark yalnızca prompt ile bile kırılabiliyor
https://arxiv.org/abs/2410.02879

LLM’ler İçin Unutulan Bilgiyi Geri Kazandıran Şaşırtıcı Derecede Basit Bir Yaklaşım

Unlearning bilgiyi siliyor mu, gizliyor mu?

Utility’yi korumaya yönelik mevcut unlearning yöntemleri

Quantization’ın unutulan bilgiyi geri getirdiğini gösteren deney sonuçları

Küçük ağırlık değişimlerinin yarattığı zafiyet

Azaltma stratejileri ve kalan sınırlamalar

İlgili okumalar

1 yorum

Hacker News yorumları