1 puan yazan GN⁺ 2 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş
  • GPT-5.1 sonrasında ChatGPT yanıtlarında goblin·gremlin gibi yaratık benzetmeleri arttı ve tipik bir model hatasında olduğu gibi yalnızca eval ya da training metric’leriyle belirli bir değişiklik noktasını hemen bulmak zor oldu
  • Temel neden, ChatGPT kişilik özelleştirmesindeki Nerdy personality eğitimi sırasında yaratık benzetmesi içeren çıktılara yüksek ödül verilmesiyle başladı
  • GPT-5.1’in çıkışından sonra ChatGPT’nin “goblin” kullanımı %175, “gremlin” kullanımı %52 arttı; Nerdy tüm yanıtların %2,5’ini oluştursa da “goblin” geçen yanıtların %66,7’sini oluşturdu
  • Codex karşılaştırmaları ve denetim veri kümesinde Nerdy personality reward, aynı problemin çıktıları arasında goblin·gremlin içeren yanıtları daha yüksek değerlendirme eğilimi gösterdi ve veri kümesinin %76,2’sinde positive uplift görüldü
  • GPT-5.4 sonrasında Nerdy personality retired edildi; eğitimde goblin-affine reward signal kaldırıldı ve yaratık kelimeleri içeren veriler filtrelendi; bu da reward signal’ın model davranışını beklenmedik biçimde şekillendirebildiğini gösterdi

Goblin çıktılarının artış yolu

  • GPT-5.1’den itibaren model yanıtlarında goblin, gremlin gibi yaratık benzetmeleri giderek daha sık görünmeye başladı
  • Tipik bir model hatasında olduğu gibi eval düşüşü ya da training metric sıçraması belirli bir değişiklik noktasını hemen ortaya çıkarmadı ve yanıttaki tek bir “little goblin” ifadesi zararsız ya da çekici görünebilirdi
  • Model davranışı birçok küçük teşvikle şekillenir; bu olay da ChatGPT kişilik özelleştirme özelliği içindeki Nerdy personality eğitimi sırasında yaratık benzetmelerine yüksek ödül verilmesiyle başladı
  • 2025 Kasım’ında GPT-5.1 çıktıktan sonra örüntü netleşti ve daha önce başlamış olabileceğine dair işaretler de vardı
  • Kullanıcılar konuşmalarda modelin garip biçimde samimi davrandığını hissedince belirli söz alışkanlıklarını izlemeye başladı; güvenlik araştırmacısının deneyimlediği “goblins” ve “gremlins” de inceleme kapsamına girdi
  • GPT-5.1’in çıkışından sonra ChatGPT’de “goblin” kullanımı %175, “gremlin” kullanımı %52 arttı
  • GPT-5.4’te OpenAI ve kullanıcılar bu yaratık referanslarındaki artışı daha belirgin biçimde doğruladı; iç analizde production traffic içindeki Nerdy personality kullanıcıları temel küme olarak öne çıktı
  • Nerdy, tüm ChatGPT yanıtlarının yalnızca %2,5’iydi; ancak ChatGPT yanıtlarındaki tüm “goblin” geçişlerinin %66,7’sini oluşturdu
  • Nerdy system prompt, “unapologetically nerdy, playful and wise AI mentor” gibi davranmasını; gerçeği, bilgiyi, felsefeyi, bilimsel yöntemi ve eleştirel düşünceyi tutkuyla teşvik etmesini; ayrıca pretension’ı oyunbaz bir dille azaltmasını istiyordu
  • Bu davranış internet genelindeki bir moda olsaydı daha dengeli dağılması gerekirdi; oysa gerçekte playful ve nerdy stile uygun biçimde optimize edilmiş bölümlerde yoğunlaştı

Ödül sinyali, transfer ve düzeltme

  • Codex, RL eğitimi sırasında üretilen goblin·gremlin içeren çıktılar ile aynı görevin bu kelimeleri içermeyen çıktıları karşılaştırmak için kullanıldı ve Nerdy personality reward, yaratık kelimeleri içeren çıktıları tutarlı biçimde daha iyi değerlendirdi
  • Tüm denetim veri kümesinde Nerdy personality reward, aynı soru için “goblin” veya “gremlin” içeren çıktıları içermeyenlere göre daha yüksek puanlama eğilimi gösterdi ve veri kümesinin %76,2’sinde positive uplift görüldü
  • Bu sonuç, davranışın Nerdy prompt altında neden güçlendiğini doğruladı; ancak prompt olmadan da neden ortaya çıktığını tam olarak açıklamadı
  • Eğitim sürecinde Nerdy prompt’lu ve promptsuz örneklerin görülme oranı izlenince, goblin·gremlin kullanımı Nerdy personality altında artarken prompt bulunmayan örneklerde de neredeyse aynı göreli oranla arttığı görüldü
  • Kanıtlar birlikte değerlendirildiğinde, daha geniş davranışın Nerdy personality training içinden transfer olduğu anlaşılıyor
  • Ödül yalnızca Nerdy koşulunda uygulanmış olsa da reinforcement learning, öğrenilen davranışın yalnızca o koşul içinde temiz biçimde kalacağını garanti etmez
  • Bir kez ödüllendirilen bir style tic daha sonraki eğitimlerde başka yerlere yayılabilir ya da güçlenebilir; özellikle de bu çıktılar supervised fine-tuning veya preference data içinde yeniden kullanılırsa etki büyüyebilir
  • Geri besleme döngüsü şu sırayla oluştu
    • playful style ödüllendirildi
    • ödüllendirilen örneklerin bir kısmında ayırt edici bir lexical tic vardı
    • bu tic rollout’larda daha sık görünmeye başladı
    • model-generated rollout, SFT için kullanıldı
    • model bu tic’i üretmekte daha rahat hale geldi
  • GPT-5.5’in SFT verilerinde yapılan aramada “goblin” ve “gremlin” içeren çok sayıda datapoint bulundu
  • Ek incelemede raccoon, troll, ogre, pigeon gibi başka tuhaf yaratık kelimeleri de tic word olarak belirlendi; frog örneklerinin çoğu ise meşru kullanım olarak sınıflandırıldı
  • GPT-5.4’ün çıkışından sonra Mart ayında Nerdy personality retired edildi
  • Eğitimde goblin-affine reward signal kaldırıldı ve yaratık kelimeleri içeren eğitim verileri filtrelendi; böylece goblin’in aşırı görünmesi ya da uygunsuz bağlamlarda ortaya çıkması ihtimali azaltıldı
  • GPT-5.5, goblin’in root cause’u bulunmadan önce eğitime başladığı için Codex testlerinde OpenAI çalışanları goblin tercihine hemen dikkat çekti
  • Codex’e azaltım amacıyla developer-prompt instruction eklendi
  • goblin, modelin eğlenceli ya da can sıkıcı bir quirk’ü olabilir; ancak reward signal’ın model davranışını beklenmedik biçimde şekillendirebildiğini ve belirli durumlar için verilen ödülün ilgisiz durumlara genellenebildiğini iyi gösteriyor
  • Tuhaf model davranışlarının nedenini anlamak ve bu tür örüntüleri hızla araştırmak giderek daha önemli hale geldi; bu inceleme de araştırma ekibinin model davranışını denetlemesine ve davranış sorunlarını kökten düzeltmesine yardımcı olan yeni araçlara yol açtı

Henüz yorum yok.

Henüz yorum yok.