17 puan yazan GN⁺ 2024-05-06 | 2 yorum | WhatsApp'ta paylaş
  • Machine unlearning, istenmeyen verilerin eğitilmiş bir modelden çıkarılması anlamına gelir ve modeli baştan yeniden eğitmeye gerek kalmadan modeli düzenlemeye yönelik ilgi artmaktadır
    • Buna örnek olarak kişisel bilgiler, eski bilgiler, telif hakkıyla korunan materyaller, zararlı/tehlikeli içerikler, tehlikeli yetenekler ve yanlış bilgiler gibi unsurların kaldırılması verilebilir

Unlearning biçimleri

  • Kesin unlearning (Exact unlearning)
    • Unlearn edilmiş model ile yeniden eğitilmiş modelin dağılımsal olarak aynı olmasını gerektirir
    • Temel nokta, öğrenme algoritmasının eğitim örneklerinin farklı kümelerine karşılık gelen modüler bileşenlere sahip olmasıdır
  • Diferansiyel Gizlilik (Differential Privacy) yoluyla "unlearning"
    • Modelin belirli bir veri noktasına bağımlı olmamasını sağlamaktır
    • Unlearn edilmiş model ile yeniden eğitilmiş model arasında dağılımsal yakınlık gerektirir
  • Bilinen örnek uzayında ampirik unlearning (Empirical unlearning with known example space)
    • Unlearning verisinin tam olarak bilindiği durumlarda uygulanır
    • Model fine-tuning'i üzerinden unlearning yapılır
  • Bilinmeyen örnek uzayında ampirik unlearning (Empirical unlearning with unknown example space)
    • Unlearning verisinin kapsamı ya da sınırlarının net olmadığı durumlarda uygulanır
    • Kavramların, olguların ve bilgilerin unlearn edilmesi buna girer
  • Unlearning'i doğrudan istemek (Just ask for unlearning)
    • Güçlü bir LLM'den unlearning'i doğrudan talep etme yöntemidir

Unlearning değerlendirmesi

  • Unlearning değerlendirmesi son derece zor bir problemdir. Özellikle metrik ve benchmark eksikliği ciddi düzeydedir
  • Unlearning değerlendirmesinde aşağıdaki üç boyuta odaklanmak gerekir
    • Verimlilik: Algoritma, yeniden eğitime kıyasla ne kadar hızlı
    • Model faydası: Korunması gereken verilerde veya ortogonal görevlerde performans düşüşü olup olmadığı
    • Unutma kalitesi: Unutulması gereken verilerin gerçekte ne ölçüde unlearn edildiği
  • TOFU ve WMDP benchmark'ları yakın zamanda önerildi ve unlearning değerlendirmesine yardımcı oluyor
    • TOFU, yazarın kişisel bilgilerinin unlearn edilmesine odaklanırken WMDP, biyo/siber güvenlikle ilgili tehlikeli bilgilerin unlearn edilmesine odaklanır
    • Örnek tabanlı değil, bilgi sahipliği ve anlama düzeyine dayalı üst düzey değerlendirme yaparlar
  • Kişisel tanımlayıcı bilgiler, telif hakkı, zararlılık ve backdoor gibi uygulama odaklı unlearning benchmark'larına ihtiyaç olduğu görülüyor

Unlearning'in pratiği ve görünümü

  • Unlearning zorluğunun bir spektrumu vardır
    • Düşük frekanslı metinlerin unlearn edilmesi en kolaydır; yüksek frekanslı metinler ve daha temel olgular geldikçe iş giderek zorlaşır
    • Bilgi ne kadar temel ise diğer bilgilerle ilişkisi o kadar yüksektir; bu da unlearning kapsamını geometrik olarak büyütür
    • Erken öğrenilen örnekler, sonraki örnekler tarafından "üzerine yazılmış" olabileceği için unlearning açısından zor olabilir
    • Buna karşılık geç öğrenilen örnekler, model tarafından kademeli ya da katastrofik biçimde unutulabildiği için unlearning açısından zor olabilir
  • Telif hakkı koruması
    • Unlearning, telif hakkı koruması için umut verici görünse de şu an için hukuki zemin belirsizdir
    • Adil kullanım doktrinine göre telif hakkıyla korunan içeriğin kullanımı adil kullanım sayılıyorsa unlearning gereksiz olabilir
  • Arama tabanlı yapay zeka sistemleri
    • Unlearning talebi gelebilecek içerikleri ön eğitim corpus'undan çıkarıp harici bir veritabanında saklama yaklaşımı
    • Unlearning talebi geldiğinde ilgili veriyi DB'den silmek yeterlidir
    • Ancak deduplikasyon, alıntı/dönüştürme işleme ve veri çıkarma saldırıları gibi sorunlar vardır
  • Yapay zeka güvenliği
    • Unlearning, modelin tehlikeli bilgi, davranış ve yeteneklerini kaldırmak için kullanılabilir
    • Ancak bunu sonradan uygulanan risk azaltma ve savunma mekanizmalarından biri olarak görmek gerekir; alignment fine-tuning veya içerik filtreleme gibi diğer araçlarla trade-off'lar olduğu da unutulmamalıdır

GN⁺'un görüşü

  • Machine unlearning hâlâ araştırmanın erken aşamasında ve özellikle büyük dil modellerinde birçok zorluk barındırıyor gibi görünüyor. Kesin unlearning'in mümkün olduğu özel durumlar dışında, mevcut tablo çoğunlukla ampirik ve deneyime dayalı yöntemlere dayanıyor.
  • En büyük engel, unlearning'in nasıl değerlendirileceği gibi görünüyor. Unlearning tanımı ve ölçütleri belirsiz; her uygulamada durum farklıyken sağlam benchmark'lar ve değerlendirme metrikleri olmadan ilerleme zor olacaktır. Son dönemde TOFU, WMDP gibi uygulama odaklı benchmark'ların çıkması bu açıdan cesaret verici.
  • Telif hakkı konusunda, unlearning dışında ekonomik çözümler de düşünülebilir. OpenAI, periyodik yeniden eğitim yoluyla kesin unlearning hizmeti sunuyor ve bu arada ortaya çıkan telif hakkı ihlalleri için model sahibinin sorumluluktan muaf tutulduğu bir yaklaşım izliyor.
  • Arama tabanlı sistemlerin pek çok avantajı var, ancak ayrıntıya inildiğinde sanıldığından daha zor görünüyor. Deduplikasyon, telif hakkı tespiti, veri çıkarma saldırılarına karşı savunma gibi çözülmesi gereken çok sayıda konu var. LLM'lerin in-context learning yeteneği arttıkça retrieval ile de pek çok şey mümkün olabilir, ancak bunun fine-tuning'in yerini tamamen alması zor görünüyor.
  • Yapay zeka güvenliği açısından unlearning oldukça ilgi çekici bir araştırma alanı. Ancak sihirli bir çözüm değil; alignment, filtreleme ve diğer savunma teknikleriyle birlikte kullanılmalıdır. Modeller daha fazla özerklik kazandıkça politika/düzenleme perspektifinden de ilginin artması beklenebilir.

2 yorum

 
xguru 2024-05-07

2024'te Machine Unlearning

Google Machine Unlearning Challenge

 
GN⁺ 2024-05-06
Hacker News yorumları
  • Modelden belirli bilgiler silinse bile, çıkarım veya prompting yoluyla yeniden öğrenilebilmesine dair temel bir sorun var
  • Yasaklı bilginin kendisini filtrelemekten ziyade, nihai çıkarım katmanını oluşturan ağırlıklar ve teşviklerde bir çözüm olabilir
  • Mevcut "güvenli" modellerin sonuçları çoğu zaman tatmin edici değil; bunun nedeni, henüz hakikati söyleyen bir model değil, daha fazla geliştirmeyi mümkün kılan bir model istiyor olmamız olabilir
  • Modelin dışarıdaki bir şey tarafından üretildiği ilkesini kodlamanın ve buna ağırlık vermenin bir yolu olabilir
  • Telif hakkını ihlal eden veri kümelerini silmek, hukuken en kabul edilebilir yöntem olabilir
  • Tüm içeriği toplamak yerine, yalnızca açıkça model oluşturmakta kullanılabilir olarak işaretlenmiş içerikleri toplamak nasıl olur?
  • Model DP ile eğitilirse veriler fazla iç içe geçerek tam veriyi geri döndüremez hale gelebilir ya da tersine DP aşaması işe yaramaz hale gelir
  • Bilgi silme sorunlu bir iştir
  • Eğitilmiş, eğitimi geri alınmış ve yeniden eğitilmiş yapay zekanın "sağlamlığı" konusunda endişeler var
  • 2014'te politika yapıcılar, derin öğrenmenin veri ve hesaplamanın devasa bir karışımı haline geleceğini öngörmedi
  • "Öğrenmeyi geri alma" asıl hedef değil ve istenen şey modelin mecazi olarak kafasını kuma gömmesi değil
  • Yeni girişimlerde ML eğitim döngüsüne tırmıklı bir güruhun dahil olması var