OpenAI'nin GPT-OSS'u, OpenAI eğitim verilerinin sırlarını açığa çıkarıyor

(fi-le.net)

4 puan yazan GN⁺ 2025-10-06 | 2 yorum | WhatsApp'ta paylaş

OpenAI'nin kısa süre önce yayımladığı açık ağırlıklı model, eğitim verilerinin sırlarına kısmen erişmeyi mümkün kıldı
GPT-5 analizi sırasında, yetişkin sitelerine ait ifadelerin eğitim verilerine dahil olduğuna dair kanıt bulundu
Belirli anomali token'larını (glitch token) analiz ederek GPT ailesi modellerin eğitim verisi özellikleri çıkarımlanabiliyor
Github gibi kaynaklardan toplanan spam/uygunsuz içerik de bazı token'lara yansımış durumda
Açık ağırlıkların yayımlanması, eğitim verisi çıkarımı ve saldırı vektörlerinin genişlemesine yol açabilir

Genel bakış

OpenAI'nin yakın zamanda GPT-oss ağırlıklarını yayımlamasıyla birlikte, eğitim verisinin tam olarak ne olduğuna dair kısmi tahminler yapılabilen bir durum ortaya çıktı
Resmî olarak yalnızca "STEM, kodlama ve genel bilgiye odaklanan trilyonlarca token'dan oluşan metin veri kümesi" olarak belirtiliyor; ancak gerçek veri kaynaklarına dair ayrıntılı açıklama yapılmıyor
Buna rağmen, yayımlanan model parametrelerinin yapısal analiziyle örtük bilgiler elde edilebiliyor

Deneyler ve anomali token'larının tespiti

GPT-5 (GPT-5-2025-08-07) modelinden Abhazca bir kelime gibi alışılmadık Unicode girdilerini tekrar etmesi istendiğinde, model alakasız biçimde Malayalamca kelimelerle yanıt verdi
Deneyler, bu girdinin rastgele değil, model zafiyetini tetikleyen bir glitch token olduğunu ortaya koydu
GPT-5 ve son dönem OpenAI modelleri o200k tokenizer kullanıyor; her token embedding'inin L2 Norm dağılımı analiz edildiğinde
- L2 Norm'u çok düşük olan yaklaşık 936 token, eğitimde neredeyse hiç görünmeyen token'lar, özel token'lar veya bazı Unicode baytları olarak değerlendiriliyor
- Buna karşılık, L2 Norm'u yüksek token'lar çoğunlukla İngilizce kod, açıklama ve muhakemede sık kullanılan kelimelerden oluşuyor

Yüksek normlu ASCII dışı token'ların kimliği

Yüksek L2 Norm'a sahip çok sayıda ASCII dışı token, Çince, Abhazca, Ermenice, Tayca ve Hindistan bölgesindeki dillerden oluşuyor
Özellikle Çince token'ların bir kısmı yetişkin siteleri, kumar siteleri veya politik site adlarıyla (örn. .tieba, 凤凰大参考) ilişkili
GPT ailesi modellerin tokenizer'ında bu tür kelimelerin aşırı temsil edildiğine dikkat çekiliyor
Bazı token'ların ise belirli bölge şehir adları, futbolla ilgili ifadeler vb. olup internetteki spam veya otomatik veri toplama süreçleriyle içeri girmiş göründüğü belirtiliyor

Glitch token'ların kullanımı

GPT-5 ve GPT-oss ailesi modellere glitch token'lar verilerek modelin bu token'ların anlamını/dilini tanıyıp tanımadığı değerlendirildi
Gerçek giriş deneylerinde, bazı hassas token'lar için modelin anlamı kavradığı veya yanıt ürettiği görüldü
Bu, bir tür membership inference olup ilgili token'ın eğitim verisine dahil edildiğini destekliyor
Bu yöntemle hangi verilerin model eğitiminde kullanıldığına dair yaklaşık çıkarımlar yapılabiliyor

Eğitim verisi kaynaklarının analizi ve çıkarımlar

Glitch token'ların Github'da sık aranabilir olması nedeniyle, eğitim verisinin bir kısmının Github'dan toplanmış olabileceği de öne sürülüyor
- Token bazındaki Github arama sonuçları ile modelin tanıma oranı arasında korelasyon bulunuyor (Spearman ρ=0.448)
Ancak açık ağırlıklı modellerin dağıtımı, yalnızca alışılmadık eğitim verisi çıkarımını değil, aynı zamanda güvenlik açısından saldırı vektörlerinin genişlemesini de destekliyor
Frontier AI laboratuvarlarının, alışılmadık/nadir dizelerin tokenizer'a kaydedilmesini engellemek gibi ek güvenlik önlemleri alması gerekiyor

Ek: glitch token araştırmalarının genişlemesi

Glitch token'lar, model tanımlama (belirli bir API/hizmetin hangi modeli kullandığını çıkarımlama) gibi farklı amaçlarla da kullanılabiliyor
Araştırmalar; eğitim tekrar sayısı, örnek verimliliği, embedding ve ön katmanlar üzerinden ek dağılım analizi gibi derin konulara doğru genişliyor
GPT-4o ailesinde glitch token'ların sonsuz tekrar çıktısı üreterek hizmet reddi (DoS) saldırılarında kullanılma riski de belirtiliyor
Ayrıntılı örnekler ve tablolar için eşlik eden Github deposuna bakılabilir

Kaynaklar ve sonuç

Temsili ampirik çalışmalar olarak MIT Technology Review ve Çinli teknoloji blogları referans gösteriliyor
Sonuç olarak, açık ağırlıklı modellerin yayımlanması, modele gömülü eğitim verilerinin ayrıntılarını çıkarımlamak için yeni bir yöntem sunuyor ve veri güvenliği ile gizlilik açısından önemli sonuçlar doğuruyor
Model geliştiriciler, hassas/anormal verilerin tokenizer ve eğitim verisine dahil edilmemesi için aktif engelleme stratejileri geliştirmeli

2 yorum

aer0700 2025-10-07

Bilim açısından bakıldığında, amaç yapay zekaya dünya hakkında genel bilgi öğretmekse yetişkin sitelerini özellikle filtrelemeye gerek yokmuş gibi geliyor.
Bir ürün geliştirme açısından ve müşterilere güvenilir bir sohbet botu sunma açısından bakıldığında ise, düşük kaliteli toplulukları ya da yetişkin sitelerini filtrelemek doğru olur.
OpenAI’nin PM’inin nasıl bir karar verdiğini, işin perde arkasını merak ediyorum.

GN⁺ 2025-10-06

Hacker News görüşleri

Bu makale, "GPT-5 yetişkin web sitelerinden alınan ifadelerle eğitildi" diyor ama aslında söylenen şey, GPT-5'in yetişkin sitelerinde de görülen ifadelerle eğitilmiş olabileceği; ayrıca bu ifadeleri içeren verinin kaynağının GitHub da olabileceğine dair sadece bir tahmin olduğu
- Çin'deki yetişkin site reklamları, yeniden paketlenmiş ücretsiz içeriklerde ya da korsan içeriklerde yaygın şekilde bulunuyor; bu materyaller github, shadow libraries, YouTube gibi yerler üzerinden dağıtılıyor; aynı nedenle whisper modeline boş ses verildiğinde bu reklam cümlelerinin çıktılanması olayı da var
- Blogun sonunda bu kısım ele alınıyor
“GPT-5 yetişkin site ifadeleriyle eğitildi” ifadesinin gerçekten yetişkin sitelerden alındığı anlamına mı geldiğini, yoksa bu tür ifadelerin eğitim verisinde yaygın olduğunu mu ima ettiğini merak ediyorum; blog spam'i, link çiftlikleri, affiliate marketing vb. yetişkin/kumar sitelerinde yaygın olduğundan, ilgili ifadelerin bolca karışması doğal
- Bu kişinin yetişkin siteleri hakkında epey bilgili olduğu hissi veriyor
“Yaklaşık 936 token çok küçük L2 norm değerlerine sahip ve bu, bu token'ların GPT-oss eğitiminde kullanılmadığı için weight decay nedeniyle bastırıldığını gösteriyor” iddiası hakkında, geleneksel olarak embedding ve norm parametreleri weight decay dışında bırakılır; bunun hâlâ böyle olup olmadığını merak ediyorum; minGPT örnek kodu gerçekten böyle açıklandığını gösteriyor minGPT koduna bakın
- Acaba bu token'lar veri kümesinin ortalama değeri + gürültü ile başlatıldı da eğitim sırasında hiç görülmedikleri için değerleri değişmeden mi kaldı diye düşünüyorum; en güncel teknik mi bilmiyorum ama Karpathy videolarında, başlangıçtaki gradient descent sırasında kaybın çok hızlı düşmesini önlemek için bazen böyle hileler kullanılıyor
- Makalenin, bu örüntüleri eğitim verisinde nasıl bulduğunu yeterince açıklamadığını hissettim; sadece sonuçlara odaklandığı için içerik eksik kalmış
Makaledeki ilginç noktalardan biri, ‘glitch token’ kullanarak hangi dil modelinin kullanıldığını anlayabilmek; prompt'a glitch token koyup tepkiye bakınca modelin kimliği ortaya çıkıyor
- İleride pentest süreçlerinde de LLM parmak izi çıkarılarak model türü ve güvenlik açıkları gibi şeyleri belirlemeye yönelik bir akış görebiliriz diye düşünüyorum
- Ben de benzer bir şey düşündüm; ileride çeşitli agentic flow'larda hangi modelin kullanıldığını açığa çıkarmaya yarar mı merak ediyorum; bir model başka alt modelleri çağırdığında, her aşamadaki glitch tepkileri üzerinden tüm çağrı yapısını geriye doğru izlemek bile mümkün olabilir
- Ama bu tür reverse engineering'in mümkün olması, tokenizer'ı doğrudan görebildiğimiz için olabilir mi diye düşünüyorum; Claude veya Gemini için tokenizer'lar yayımlandı mı? Eğer yayımlanmadılarsa bu tür saldırı teknikleri engellenebilir gibi
LLM'leri, özellikle sadece API sunulan kapalı modelleri tersine mühendislik yoluyla inceleyen veya eğitim verisinin yapısını ortaya çıkarmaya çalışan araştırmalar olup olmadığını merak ediyorum; örneğin Claude Sonnet 4.5'in eğitim verisinin nasıl tahmin edilebileceği, ayrıca RLHF sonrasında ön eğitimli modelin eğilimlerinin de ortaya çıkarılıp çıkarılamayacağı ilgimi çekiyor; GPT-4o gibi modellerde bias tamamen siliniyor mu, yoksa modelin derinliklerinde sadece gizleniyor mu, o farkı da bilmek isterim
- Bununla ilgili makaleler var arXiv:2403.06634, arXiv:2311.17035; Nicholas Carlini'nin bir röportaj yaptığını da hatırlıyorum
- Bias insani bir kelime olduğu için bu şekilde tartışılınca konu hiç bitmiyor gibi; geçmişte Systemd ilk çıktığında LLM'ler olsaydı, o dönemde bilgi az olduğu için eski bilgilere dayanarak yanıt verirlerdi; LLM'ler aldıkları veriyi yeniden üretiyor ve veriden bilgi silmek, çoğu zaman eğitim verisini arıtmaktan daha ucuza geliyor
“xadder” token'ı garip görünmüştü ama aslında “xpadder”ın (gamepad aracı) yazım hatası, çeşitli araç adları, XLib çağrı parametreleri, Xilinx Vivado'da full adder gerçekleştirimleri gibi farklı bağlamlarda kullanılan bir kelime; forum takma adı olarak kullanıldığı örnekler de var
Makaledeki Çince ifadelerin çevirisi o kadar hatalı ki anlamı kavramak zorlaşıyor; bu yüzden veri matrisinin kendisinin de hatalı olabileceğini düşünüyorum; yazarın deneyimli bir anadili Çince olan biriyle çapraz doğrulama yapması gerek
- Biri daha iyi bir çeviri gönderirse güncelleyeceğini söylemiş
Kapsam bu kadar genişken, “düşük kaliteli” reklam token'larına bile token alanı harcanıyorsa, kuantize modellerin performansını artırmak için token alanını daraltmaya yönelik girişimler oldu mu diye merak ettim; reklam token'larını görünce aklıma geldi
- Bazı 30b parametreli modellerin gerçekte aynı anda yaklaşık 3b kadarını etkinleştiren yapısı zaten bu fikrin bir örneği değil mi diye düşünüyorum
Belki ben yanlış anladım ama makale, OpenAI'ın eğitimde yetişkin site verisi kullanmış olmasını sanki bir skandalmış gibi ima ediyor; oysa Google da yetişkin siteleri indeksleyip aramaya yansıtıyor, LLM'lerde farkın ne olduğunu pek anlayamıyorum
- Aslında yeni bir şey de değil; gpt-tokens deposuna bakılırsa, yaklaşık 1 yıl önce bile Gpt-4o'da yetişkin siteleriyle ilgili Çince ifadelerin bulunduğu vakalar vardı; bu mesele zaten uzun zamandır biliniyordu
- Asıl mesele, eğer GitHub'da yer alan belirli bir ifade model içinde ortaya çıkıyorsa, GitHub'ın eğitim verisine dahil edilmiş olma ihtimalinin yüksek olması
- Ben şahsen makalede öyle bir ima sezmedim
- Şirket açısından bakarsak, bu tür verilerin, özellikle yetişkin içerikle ilgili ifadelerin sansür ya da politika uyumluluğu için eğitim verisinden önceden çıkarılması mantıklı görünüyor
Gemini 2.5 pro üzerinde makaledeki örnekleri test ettim ve neredeyse hepsini sorunsuz işledi; Google'ın modeli tamamen farklı glitch token'lara karşı zayıf olabilir diye düşünüyorum; makaledeki teknik tartışmaları anlamak biraz zor geldi
- Glitch token'lar tokenizer'a göre farklı çalışır; Gemini, OpenAI modellerinden farklı bir tokenizer kullanıyor; OpenAI glitch token'larının kökeni de ilginç: ilk tokenizer'lar eğitilirken kullanılan verideki popüler string'lere (ör. Reddit'teki aktif kullanıcı takma adları gibi) tamsayılar atanmıştı ve bunlardan rastgele seçilmiş örneklerden biri “davidjl”di, daha fazla açıklama