- Machine unlearning, istenmeyen verilerin eğitilmiş bir modelden çıkarılması anlamına gelir ve modeli baştan yeniden eğitmeye gerek kalmadan modeli düzenlemeye yönelik ilgi artmaktadır
- Buna örnek olarak kişisel bilgiler, eski bilgiler, telif hakkıyla korunan materyaller, zararlı/tehlikeli içerikler, tehlikeli yetenekler ve yanlış bilgiler gibi unsurların kaldırılması verilebilir
Unlearning biçimleri
- Kesin unlearning (Exact unlearning)
- Unlearn edilmiş model ile yeniden eğitilmiş modelin dağılımsal olarak aynı olmasını gerektirir
- Temel nokta, öğrenme algoritmasının eğitim örneklerinin farklı kümelerine karşılık gelen modüler bileşenlere sahip olmasıdır
- Diferansiyel Gizlilik (Differential Privacy) yoluyla "unlearning"
- Modelin belirli bir veri noktasına bağımlı olmamasını sağlamaktır
- Unlearn edilmiş model ile yeniden eğitilmiş model arasında dağılımsal yakınlık gerektirir
- Bilinen örnek uzayında ampirik unlearning (Empirical unlearning with known example space)
- Unlearning verisinin tam olarak bilindiği durumlarda uygulanır
- Model fine-tuning'i üzerinden unlearning yapılır
- Bilinmeyen örnek uzayında ampirik unlearning (Empirical unlearning with unknown example space)
- Unlearning verisinin kapsamı ya da sınırlarının net olmadığı durumlarda uygulanır
- Kavramların, olguların ve bilgilerin unlearn edilmesi buna girer
- Unlearning'i doğrudan istemek (Just ask for unlearning)
- Güçlü bir LLM'den unlearning'i doğrudan talep etme yöntemidir
Unlearning değerlendirmesi
- Unlearning değerlendirmesi son derece zor bir problemdir. Özellikle metrik ve benchmark eksikliği ciddi düzeydedir
- Unlearning değerlendirmesinde aşağıdaki üç boyuta odaklanmak gerekir
- Verimlilik: Algoritma, yeniden eğitime kıyasla ne kadar hızlı
- Model faydası: Korunması gereken verilerde veya ortogonal görevlerde performans düşüşü olup olmadığı
- Unutma kalitesi: Unutulması gereken verilerin gerçekte ne ölçüde unlearn edildiği
- TOFU ve WMDP benchmark'ları yakın zamanda önerildi ve unlearning değerlendirmesine yardımcı oluyor
- TOFU, yazarın kişisel bilgilerinin unlearn edilmesine odaklanırken WMDP, biyo/siber güvenlikle ilgili tehlikeli bilgilerin unlearn edilmesine odaklanır
- Örnek tabanlı değil, bilgi sahipliği ve anlama düzeyine dayalı üst düzey değerlendirme yaparlar
- Kişisel tanımlayıcı bilgiler, telif hakkı, zararlılık ve backdoor gibi uygulama odaklı unlearning benchmark'larına ihtiyaç olduğu görülüyor
Unlearning'in pratiği ve görünümü
- Unlearning zorluğunun bir spektrumu vardır
- Düşük frekanslı metinlerin unlearn edilmesi en kolaydır; yüksek frekanslı metinler ve daha temel olgular geldikçe iş giderek zorlaşır
- Bilgi ne kadar temel ise diğer bilgilerle ilişkisi o kadar yüksektir; bu da unlearning kapsamını geometrik olarak büyütür
- Erken öğrenilen örnekler, sonraki örnekler tarafından "üzerine yazılmış" olabileceği için unlearning açısından zor olabilir
- Buna karşılık geç öğrenilen örnekler, model tarafından kademeli ya da katastrofik biçimde unutulabildiği için unlearning açısından zor olabilir
- Telif hakkı koruması
- Unlearning, telif hakkı koruması için umut verici görünse de şu an için hukuki zemin belirsizdir
- Adil kullanım doktrinine göre telif hakkıyla korunan içeriğin kullanımı adil kullanım sayılıyorsa unlearning gereksiz olabilir
- Arama tabanlı yapay zeka sistemleri
- Unlearning talebi gelebilecek içerikleri ön eğitim corpus'undan çıkarıp harici bir veritabanında saklama yaklaşımı
- Unlearning talebi geldiğinde ilgili veriyi DB'den silmek yeterlidir
- Ancak deduplikasyon, alıntı/dönüştürme işleme ve veri çıkarma saldırıları gibi sorunlar vardır
- Yapay zeka güvenliği
- Unlearning, modelin tehlikeli bilgi, davranış ve yeteneklerini kaldırmak için kullanılabilir
- Ancak bunu sonradan uygulanan risk azaltma ve savunma mekanizmalarından biri olarak görmek gerekir; alignment fine-tuning veya içerik filtreleme gibi diğer araçlarla trade-off'lar olduğu da unutulmamalıdır
GN⁺'un görüşü
- Machine unlearning hâlâ araştırmanın erken aşamasında ve özellikle büyük dil modellerinde birçok zorluk barındırıyor gibi görünüyor. Kesin unlearning'in mümkün olduğu özel durumlar dışında, mevcut tablo çoğunlukla ampirik ve deneyime dayalı yöntemlere dayanıyor.
- En büyük engel, unlearning'in nasıl değerlendirileceği gibi görünüyor. Unlearning tanımı ve ölçütleri belirsiz; her uygulamada durum farklıyken sağlam benchmark'lar ve değerlendirme metrikleri olmadan ilerleme zor olacaktır. Son dönemde TOFU, WMDP gibi uygulama odaklı benchmark'ların çıkması bu açıdan cesaret verici.
- Telif hakkı konusunda, unlearning dışında ekonomik çözümler de düşünülebilir. OpenAI, periyodik yeniden eğitim yoluyla kesin unlearning hizmeti sunuyor ve bu arada ortaya çıkan telif hakkı ihlalleri için model sahibinin sorumluluktan muaf tutulduğu bir yaklaşım izliyor.
- Arama tabanlı sistemlerin pek çok avantajı var, ancak ayrıntıya inildiğinde sanıldığından daha zor görünüyor. Deduplikasyon, telif hakkı tespiti, veri çıkarma saldırılarına karşı savunma gibi çözülmesi gereken çok sayıda konu var. LLM'lerin in-context learning yeteneği arttıkça retrieval ile de pek çok şey mümkün olabilir, ancak bunun fine-tuning'in yerini tamamen alması zor görünüyor.
- Yapay zeka güvenliği açısından unlearning oldukça ilgi çekici bir araştırma alanı. Ancak sihirli bir çözüm değil; alignment, filtreleme ve diğer savunma teknikleriyle birlikte kullanılmalıdır. Modeller daha fazla özerklik kazandıkça politika/düzenleme perspektifinden de ilginin artması beklenebilir.
2 yorum
2024'te Machine Unlearning
Google Machine Unlearning Challenge
Hacker News yorumları