Doğal dil yapay zeka modellerini hacklemek
(arxiv.org)-
Google, Harvard, Stanford, OpenAI ve Apple’ın ortak yayımladığı makaleye göre, büyük dil modellerine sadece soru sorarak eğitimde kullanılmış belirli verileri çıkarmak mümkün oldu.
-
GPT-2’ye yönelik saldırı, haber başlıkları ve ev adresleri gibi kişisel bilgileri çok yüksek doğrulukla ortaya çıkardı.
-
Yalnızca GPT-2 değil, diğer dil modelleri de bu tür saldırılara karşı savunmasız olabilir; bu yüzden eğitim verilerini ön işlemden geçirirken çok daha dikkatli olunmalı
Henüz yorum yok.