2024'te Machine Unlearning

(ai.stanford.edu)

17 puan yazan GN⁺ 2024-05-06 | 2 yorum | WhatsApp'ta paylaş

Machine unlearning, istenmeyen verilerin eğitilmiş bir modelden çıkarılması anlamına gelir ve modeli baştan yeniden eğitmeye gerek kalmadan modeli düzenlemeye yönelik ilgi artmaktadır
- Buna örnek olarak kişisel bilgiler, eski bilgiler, telif hakkıyla korunan materyaller, zararlı/tehlikeli içerikler, tehlikeli yetenekler ve yanlış bilgiler gibi unsurların kaldırılması verilebilir

Unlearning biçimleri

Kesin unlearning (Exact unlearning)
- Unlearn edilmiş model ile yeniden eğitilmiş modelin dağılımsal olarak aynı olmasını gerektirir
- Temel nokta, öğrenme algoritmasının eğitim örneklerinin farklı kümelerine karşılık gelen modüler bileşenlere sahip olmasıdır
Diferansiyel Gizlilik (Differential Privacy) yoluyla "unlearning"
- Modelin belirli bir veri noktasına bağımlı olmamasını sağlamaktır
- Unlearn edilmiş model ile yeniden eğitilmiş model arasında dağılımsal yakınlık gerektirir
Bilinen örnek uzayında ampirik unlearning (Empirical unlearning with known example space)
- Unlearning verisinin tam olarak bilindiği durumlarda uygulanır
- Model fine-tuning'i üzerinden unlearning yapılır
Bilinmeyen örnek uzayında ampirik unlearning (Empirical unlearning with unknown example space)
- Unlearning verisinin kapsamı ya da sınırlarının net olmadığı durumlarda uygulanır
- Kavramların, olguların ve bilgilerin unlearn edilmesi buna girer
Reklam
Unlearning'i doğrudan istemek (Just ask for unlearning)
- Güçlü bir LLM'den unlearning'i doğrudan talep etme yöntemidir

Unlearning değerlendirmesi

Unlearning değerlendirmesi son derece zor bir problemdir. Özellikle metrik ve benchmark eksikliği ciddi düzeydedir
Unlearning değerlendirmesinde aşağıdaki üç boyuta odaklanmak gerekir
- Verimlilik: Algoritma, yeniden eğitime kıyasla ne kadar hızlı
- Model faydası: Korunması gereken verilerde veya ortogonal görevlerde performans düşüşü olup olmadığı
- Unutma kalitesi: Unutulması gereken verilerin gerçekte ne ölçüde unlearn edildiği
TOFU ve WMDP benchmark'ları yakın zamanda önerildi ve unlearning değerlendirmesine yardımcı oluyor
- TOFU, yazarın kişisel bilgilerinin unlearn edilmesine odaklanırken WMDP, biyo/siber güvenlikle ilgili tehlikeli bilgilerin unlearn edilmesine odaklanır
- Örnek tabanlı değil, bilgi sahipliği ve anlama düzeyine dayalı üst düzey değerlendirme yaparlar
Kişisel tanımlayıcı bilgiler, telif hakkı, zararlılık ve backdoor gibi uygulama odaklı unlearning benchmark'larına ihtiyaç olduğu görülüyor

Unlearning'in pratiği ve görünümü

Unlearning zorluğunun bir spektrumu vardır
- Düşük frekanslı metinlerin unlearn edilmesi en kolaydır; yüksek frekanslı metinler ve daha temel olgular geldikçe iş giderek zorlaşır
- Bilgi ne kadar temel ise diğer bilgilerle ilişkisi o kadar yüksektir; bu da unlearning kapsamını geometrik olarak büyütür
- Erken öğrenilen örnekler, sonraki örnekler tarafından "üzerine yazılmış" olabileceği için unlearning açısından zor olabilir
- Buna karşılık geç öğrenilen örnekler, model tarafından kademeli ya da katastrofik biçimde unutulabildiği için unlearning açısından zor olabilir
Telif hakkı koruması
- Unlearning, telif hakkı koruması için umut verici görünse de şu an için hukuki zemin belirsizdir
- Adil kullanım doktrinine göre telif hakkıyla korunan içeriğin kullanımı adil kullanım sayılıyorsa unlearning gereksiz olabilir
Arama tabanlı yapay zeka sistemleri
- Unlearning talebi gelebilecek içerikleri ön eğitim corpus'undan çıkarıp harici bir veritabanında saklama yaklaşımı
- Unlearning talebi geldiğinde ilgili veriyi DB'den silmek yeterlidir
- Ancak deduplikasyon, alıntı/dönüştürme işleme ve veri çıkarma saldırıları gibi sorunlar vardır
Yapay zeka güvenliği
- Unlearning, modelin tehlikeli bilgi, davranış ve yeteneklerini kaldırmak için kullanılabilir
- Ancak bunu sonradan uygulanan risk azaltma ve savunma mekanizmalarından biri olarak görmek gerekir; alignment fine-tuning veya içerik filtreleme gibi diğer araçlarla trade-off'lar olduğu da unutulmamalıdır

GN⁺'un görüşü

Machine unlearning hâlâ araştırmanın erken aşamasında ve özellikle büyük dil modellerinde birçok zorluk barındırıyor gibi görünüyor. Kesin unlearning'in mümkün olduğu özel durumlar dışında, mevcut tablo çoğunlukla ampirik ve deneyime dayalı yöntemlere dayanıyor.
En büyük engel, unlearning'in nasıl değerlendirileceği gibi görünüyor. Unlearning tanımı ve ölçütleri belirsiz; her uygulamada durum farklıyken sağlam benchmark'lar ve değerlendirme metrikleri olmadan ilerleme zor olacaktır. Son dönemde TOFU, WMDP gibi uygulama odaklı benchmark'ların çıkması bu açıdan cesaret verici.
Telif hakkı konusunda, unlearning dışında ekonomik çözümler de düşünülebilir. OpenAI, periyodik yeniden eğitim yoluyla kesin unlearning hizmeti sunuyor ve bu arada ortaya çıkan telif hakkı ihlalleri için model sahibinin sorumluluktan muaf tutulduğu bir yaklaşım izliyor.
Arama tabanlı sistemlerin pek çok avantajı var, ancak ayrıntıya inildiğinde sanıldığından daha zor görünüyor. Deduplikasyon, telif hakkı tespiti, veri çıkarma saldırılarına karşı savunma gibi çözülmesi gereken çok sayıda konu var. LLM'lerin in-context learning yeteneği arttıkça retrieval ile de pek çok şey mümkün olabilir, ancak bunun fine-tuning'in yerini tamamen alması zor görünüyor.
Yapay zeka güvenliği açısından unlearning oldukça ilgi çekici bir araştırma alanı. Ancak sihirli bir çözüm değil; alignment, filtreleme ve diğer savunma teknikleriyle birlikte kullanılmalıdır. Modeller daha fazla özerklik kazandıkça politika/düzenleme perspektifinden de ilginin artması beklenebilir.

2 yorum

xguru 2024-05-07

2024'te Machine Unlearning

Google Machine Unlearning Challenge

GN⁺ 2024-05-06

Hacker News yorumları

Modelden belirli bilgiler silinse bile, çıkarım veya prompting yoluyla yeniden öğrenilebilmesine dair temel bir sorun var
Yasaklı bilginin kendisini filtrelemekten ziyade, nihai çıkarım katmanını oluşturan ağırlıklar ve teşviklerde bir çözüm olabilir
Mevcut "güvenli" modellerin sonuçları çoğu zaman tatmin edici değil; bunun nedeni, henüz hakikati söyleyen bir model değil, daha fazla geliştirmeyi mümkün kılan bir model istiyor olmamız olabilir
Modelin dışarıdaki bir şey tarafından üretildiği ilkesini kodlamanın ve buna ağırlık vermenin bir yolu olabilir
Telif hakkını ihlal eden veri kümelerini silmek, hukuken en kabul edilebilir yöntem olabilir
Tüm içeriği toplamak yerine, yalnızca açıkça model oluşturmakta kullanılabilir olarak işaretlenmiş içerikleri toplamak nasıl olur?
Model DP ile eğitilirse veriler fazla iç içe geçerek tam veriyi geri döndüremez hale gelebilir ya da tersine DP aşaması işe yaramaz hale gelir
Bilgi silme sorunlu bir iştir
Eğitilmiş, eğitimi geri alınmış ve yeniden eğitilmiş yapay zekanın "sağlamlığı" konusunda endişeler var
2014'te politika yapıcılar, derin öğrenmenin veri ve hesaplamanın devasa bir karışımı haline geleceğini öngörmedi
"Öğrenmeyi geri alma" asıl hedef değil ve istenen şey modelin mecazi olarak kafasını kuma gömmesi değil
Yeni girişimlerde ML eğitim döngüsüne tırmıklı bir güruhun dahil olması var

2024'te Machine Unlearning

Unlearning biçimleri

Unlearning değerlendirmesi

Unlearning'in pratiği ve görünümü

GN⁺'un görüşü

İlgili okumalar

2 yorum

Hacker News yorumları