- Rumi'nin GPT-o3 ve o4-mini modelleri üzerinde yaptığı testlere göre,
uzun yanıtlarda (ör. deneme yazımı vb.) özel karakter filigranları eklendiği tespit edildi. - Bu filigran, "Narrow No-Break Space (U+202F)" gibi Unicode özel boşluk karakterlerinden oluşuyor.
- Normalde çıplak gözle hiç görünmüyor, ancak Sublime Text, VS Code gibi kod editörlerinde veya özel karakter görüntüleyicilerinde ortaya çıkıyor.
- Kopyala-yapıştır işleminde de bu filigran korunuyor (ör. Google Docs'a kopyalayıp yapıştırınca da kalıyor).
- Ancak filigran, basit bir find-and-replace ile kaldırılabildiği için kusursuz bir savunma yöntemi değil.
- OpenAI bu filigran özelliğini resmen duyurmadı. (sessizce test ediliyor olduğu tahmin ediliyor)
- GPT-4o modelinde ise böyle bir filigran gözlemlenmediği bildirildi.
Ek olarak
- Filigran, uzun metinlere (özellikle ödev veya rapor tarzı yazılara) eklenme eğiliminde ve
- kısa sohbetlerde ya da genel soru-cevaplarda neredeyse hiç eklenmiyor.
Tek cümlelik özet
"Bazı yeni modeller özel karakterlerle filigranlamaya başlamış görünüyor, ancak tespit edilmesi ve silinmesi kolay olduğu için kusursuz değil."
6 yorum
[Güncelleme] OpenAI, Lumi’ye resmî olarak yanıt verdi
OpenAI bu gönderiyle ilgili olarak bizimle iletişime geçti ve özel karakterin bir filigran olmadığını bildirdi. OpenAI’ye göre bu yalnızca “büyük ölçekli pekiştirmeli öğrenmenin bir tuhaflığı”. Ancak gelecekteki okurların ChatGPT o3/o4 yanıtlarında bu özel (ve potansiyel olarak istenmeyen) karakterler sorununu hâlâ görebilmesi için gönderiyi yayında bırakıyoruz.
Bu son o3’te halüsinasyon sorunu inanılmaz derecede ciddiydi.
Bunun da onlardan biri olabileceğini düşündüm ama doğrudan iletişime geçmeleri ilginçmiş.
Belki de yapay zeka tarafından üretilen verileri eğitim verisi olarak kullanmamak içindir diye düşünüyorum (model collapse).
Watermark değil de bir bug olamaz mı? Test amaçlı olduğunu varsaysak bile, şu anda tartışılan llm watermark teknolojilerine kıyasla inanılmaz derecede basit görünüyor..
İddianın tuhaf eğilimlerinden söz edebileceğini sanmıştım ama öyle değilmiş. Fazla basit bir çözüm değil mi?
Hımm... Acaba bu tür bir watermark yüzünden mi? Son zamanlarda ChatGPT üzerinde düzgün görünen Korece metni kopyalayıp yapıştırınca bozuk şekilde yapıştığı durumu epey sık yaşadım.