- OpenAI'nin kısa süre önce yayımladığı açık ağırlıklı model, eğitim verilerinin sırlarına kısmen erişmeyi mümkün kıldı
- GPT-5 analizi sırasında, yetişkin sitelerine ait ifadelerin eğitim verilerine dahil olduğuna dair kanıt bulundu
- Belirli anomali token'larını (glitch token) analiz ederek GPT ailesi modellerin eğitim verisi özellikleri çıkarımlanabiliyor
- Github gibi kaynaklardan toplanan spam/uygunsuz içerik de bazı token'lara yansımış durumda
- Açık ağırlıkların yayımlanması, eğitim verisi çıkarımı ve saldırı vektörlerinin genişlemesine yol açabilir
Genel bakış
- OpenAI'nin yakın zamanda GPT-oss ağırlıklarını yayımlamasıyla birlikte, eğitim verisinin tam olarak ne olduğuna dair kısmi tahminler yapılabilen bir durum ortaya çıktı
- Resmî olarak yalnızca "STEM, kodlama ve genel bilgiye odaklanan trilyonlarca token'dan oluşan metin veri kümesi" olarak belirtiliyor; ancak gerçek veri kaynaklarına dair ayrıntılı açıklama yapılmıyor
- Buna rağmen, yayımlanan model parametrelerinin yapısal analiziyle örtük bilgiler elde edilebiliyor
Deneyler ve anomali token'larının tespiti
- GPT-5 (GPT-5-2025-08-07) modelinden Abhazca bir kelime gibi alışılmadık Unicode girdilerini tekrar etmesi istendiğinde, model alakasız biçimde Malayalamca kelimelerle yanıt verdi
- Deneyler, bu girdinin rastgele değil, model zafiyetini tetikleyen bir glitch token olduğunu ortaya koydu
- GPT-5 ve son dönem OpenAI modelleri o200k tokenizer kullanıyor; her token embedding'inin L2 Norm dağılımı analiz edildiğinde
- L2 Norm'u çok düşük olan yaklaşık 936 token, eğitimde neredeyse hiç görünmeyen token'lar, özel token'lar veya bazı Unicode baytları olarak değerlendiriliyor
- Buna karşılık, L2 Norm'u yüksek token'lar çoğunlukla İngilizce kod, açıklama ve muhakemede sık kullanılan kelimelerden oluşuyor
Yüksek normlu ASCII dışı token'ların kimliği
- Yüksek L2 Norm'a sahip çok sayıda ASCII dışı token, Çince, Abhazca, Ermenice, Tayca ve Hindistan bölgesindeki dillerden oluşuyor
- Özellikle Çince token'ların bir kısmı yetişkin siteleri, kumar siteleri veya politik site adlarıyla (örn. .tieba, 凤凰大参考) ilişkili
- GPT ailesi modellerin tokenizer'ında bu tür kelimelerin aşırı temsil edildiğine dikkat çekiliyor
- Bazı token'ların ise belirli bölge şehir adları, futbolla ilgili ifadeler vb. olup internetteki spam veya otomatik veri toplama süreçleriyle içeri girmiş göründüğü belirtiliyor
Glitch token'ların kullanımı
- GPT-5 ve GPT-oss ailesi modellere glitch token'lar verilerek modelin bu token'ların anlamını/dilini tanıyıp tanımadığı değerlendirildi
- Gerçek giriş deneylerinde, bazı hassas token'lar için modelin anlamı kavradığı veya yanıt ürettiği görüldü
- Bu, bir tür membership inference olup ilgili token'ın eğitim verisine dahil edildiğini destekliyor
- Bu yöntemle hangi verilerin model eğitiminde kullanıldığına dair yaklaşık çıkarımlar yapılabiliyor
Eğitim verisi kaynaklarının analizi ve çıkarımlar
- Glitch token'ların Github'da sık aranabilir olması nedeniyle, eğitim verisinin bir kısmının Github'dan toplanmış olabileceği de öne sürülüyor
- Token bazındaki Github arama sonuçları ile modelin tanıma oranı arasında korelasyon bulunuyor (Spearman ρ=0.448)
- Ancak açık ağırlıklı modellerin dağıtımı, yalnızca alışılmadık eğitim verisi çıkarımını değil, aynı zamanda güvenlik açısından saldırı vektörlerinin genişlemesini de destekliyor
- Frontier AI laboratuvarlarının, alışılmadık/nadir dizelerin tokenizer'a kaydedilmesini engellemek gibi ek güvenlik önlemleri alması gerekiyor
Ek: glitch token araştırmalarının genişlemesi
- Glitch token'lar, model tanımlama (belirli bir API/hizmetin hangi modeli kullandığını çıkarımlama) gibi farklı amaçlarla da kullanılabiliyor
- Araştırmalar; eğitim tekrar sayısı, örnek verimliliği, embedding ve ön katmanlar üzerinden ek dağılım analizi gibi derin konulara doğru genişliyor
- GPT-4o ailesinde glitch token'ların sonsuz tekrar çıktısı üreterek hizmet reddi (DoS) saldırılarında kullanılma riski de belirtiliyor
- Ayrıntılı örnekler ve tablolar için eşlik eden Github deposuna bakılabilir
Kaynaklar ve sonuç
- Temsili ampirik çalışmalar olarak MIT Technology Review ve Çinli teknoloji blogları referans gösteriliyor
- Sonuç olarak, açık ağırlıklı modellerin yayımlanması, modele gömülü eğitim verilerinin ayrıntılarını çıkarımlamak için yeni bir yöntem sunuyor ve veri güvenliği ile gizlilik açısından önemli sonuçlar doğuruyor
- Model geliştiriciler, hassas/anormal verilerin tokenizer ve eğitim verisine dahil edilmemesi için aktif engelleme stratejileri geliştirmeli
2 yorum
Bilim açısından bakıldığında, amaç yapay zekaya dünya hakkında genel bilgi öğretmekse yetişkin sitelerini özellikle filtrelemeye gerek yokmuş gibi geliyor.
Bir ürün geliştirme açısından ve müşterilere güvenilir bir sohbet botu sunma açısından bakıldığında ise, düşük kaliteli toplulukları ya da yetişkin sitelerini filtrelemek doğru olur.
OpenAI’nin PM’inin nasıl bir karar verdiğini, işin perde arkasını merak ediyorum.
Hacker News görüşleri