Goblinler Nereden Geldi
(openai.com)- GPT-5.1 sonrasında ChatGPT yanıtlarında goblin·gremlin gibi yaratık benzetmeleri arttı ve tipik bir model hatasında olduğu gibi yalnızca eval ya da training metric’leriyle belirli bir değişiklik noktasını hemen bulmak zor oldu
- Temel neden, ChatGPT kişilik özelleştirmesindeki Nerdy personality eğitimi sırasında yaratık benzetmesi içeren çıktılara yüksek ödül verilmesiyle başladı
- GPT-5.1’in çıkışından sonra ChatGPT’nin “goblin” kullanımı %175, “gremlin” kullanımı %52 arttı; Nerdy tüm yanıtların %2,5’ini oluştursa da “goblin” geçen yanıtların %66,7’sini oluşturdu
- Codex karşılaştırmaları ve denetim veri kümesinde Nerdy personality reward, aynı problemin çıktıları arasında goblin·gremlin içeren yanıtları daha yüksek değerlendirme eğilimi gösterdi ve veri kümesinin %76,2’sinde positive uplift görüldü
- GPT-5.4 sonrasında Nerdy personality retired edildi; eğitimde goblin-affine reward signal kaldırıldı ve yaratık kelimeleri içeren veriler filtrelendi; bu da reward signal’ın model davranışını beklenmedik biçimde şekillendirebildiğini gösterdi
Goblin çıktılarının artış yolu
- GPT-5.1’den itibaren model yanıtlarında goblin, gremlin gibi yaratık benzetmeleri giderek daha sık görünmeye başladı
- Tipik bir model hatasında olduğu gibi eval düşüşü ya da training metric sıçraması belirli bir değişiklik noktasını hemen ortaya çıkarmadı ve yanıttaki tek bir “little goblin” ifadesi zararsız ya da çekici görünebilirdi
- Model davranışı birçok küçük teşvikle şekillenir; bu olay da ChatGPT kişilik özelleştirme özelliği içindeki Nerdy personality eğitimi sırasında yaratık benzetmelerine yüksek ödül verilmesiyle başladı
- 2025 Kasım’ında GPT-5.1 çıktıktan sonra örüntü netleşti ve daha önce başlamış olabileceğine dair işaretler de vardı
- Kullanıcılar konuşmalarda modelin garip biçimde samimi davrandığını hissedince belirli söz alışkanlıklarını izlemeye başladı; güvenlik araştırmacısının deneyimlediği “goblins” ve “gremlins” de inceleme kapsamına girdi
- GPT-5.1’in çıkışından sonra ChatGPT’de “goblin” kullanımı %175, “gremlin” kullanımı %52 arttı
- GPT-5.4’te OpenAI ve kullanıcılar bu yaratık referanslarındaki artışı daha belirgin biçimde doğruladı; iç analizde production traffic içindeki Nerdy personality kullanıcıları temel küme olarak öne çıktı
- Nerdy, tüm ChatGPT yanıtlarının yalnızca %2,5’iydi; ancak ChatGPT yanıtlarındaki tüm “goblin” geçişlerinin %66,7’sini oluşturdu
- Nerdy system prompt, “unapologetically nerdy, playful and wise AI mentor” gibi davranmasını; gerçeği, bilgiyi, felsefeyi, bilimsel yöntemi ve eleştirel düşünceyi tutkuyla teşvik etmesini; ayrıca pretension’ı oyunbaz bir dille azaltmasını istiyordu
- Bu davranış internet genelindeki bir moda olsaydı daha dengeli dağılması gerekirdi; oysa gerçekte playful ve nerdy stile uygun biçimde optimize edilmiş bölümlerde yoğunlaştı
Ödül sinyali, transfer ve düzeltme
- Codex, RL eğitimi sırasında üretilen goblin·gremlin içeren çıktılar ile aynı görevin bu kelimeleri içermeyen çıktıları karşılaştırmak için kullanıldı ve Nerdy personality reward, yaratık kelimeleri içeren çıktıları tutarlı biçimde daha iyi değerlendirdi
- Tüm denetim veri kümesinde Nerdy personality reward, aynı soru için “goblin” veya “gremlin” içeren çıktıları içermeyenlere göre daha yüksek puanlama eğilimi gösterdi ve veri kümesinin %76,2’sinde positive uplift görüldü
- Bu sonuç, davranışın Nerdy prompt altında neden güçlendiğini doğruladı; ancak prompt olmadan da neden ortaya çıktığını tam olarak açıklamadı
- Eğitim sürecinde Nerdy prompt’lu ve promptsuz örneklerin görülme oranı izlenince, goblin·gremlin kullanımı Nerdy personality altında artarken prompt bulunmayan örneklerde de neredeyse aynı göreli oranla arttığı görüldü
- Kanıtlar birlikte değerlendirildiğinde, daha geniş davranışın Nerdy personality training içinden transfer olduğu anlaşılıyor
- Ödül yalnızca Nerdy koşulunda uygulanmış olsa da reinforcement learning, öğrenilen davranışın yalnızca o koşul içinde temiz biçimde kalacağını garanti etmez
- Bir kez ödüllendirilen bir style tic daha sonraki eğitimlerde başka yerlere yayılabilir ya da güçlenebilir; özellikle de bu çıktılar supervised fine-tuning veya preference data içinde yeniden kullanılırsa etki büyüyebilir
- Geri besleme döngüsü şu sırayla oluştu
- playful style ödüllendirildi
- ödüllendirilen örneklerin bir kısmında ayırt edici bir lexical tic vardı
- bu tic rollout’larda daha sık görünmeye başladı
- model-generated rollout, SFT için kullanıldı
- model bu tic’i üretmekte daha rahat hale geldi
- GPT-5.5’in SFT verilerinde yapılan aramada “goblin” ve “gremlin” içeren çok sayıda datapoint bulundu
- Ek incelemede raccoon, troll, ogre, pigeon gibi başka tuhaf yaratık kelimeleri de tic word olarak belirlendi; frog örneklerinin çoğu ise meşru kullanım olarak sınıflandırıldı
- GPT-5.4’ün çıkışından sonra Mart ayında Nerdy personality retired edildi
- Eğitimde goblin-affine reward signal kaldırıldı ve yaratık kelimeleri içeren eğitim verileri filtrelendi; böylece goblin’in aşırı görünmesi ya da uygunsuz bağlamlarda ortaya çıkması ihtimali azaltıldı
- GPT-5.5, goblin’in root cause’u bulunmadan önce eğitime başladığı için Codex testlerinde OpenAI çalışanları goblin tercihine hemen dikkat çekti
- Codex’e azaltım amacıyla developer-prompt instruction eklendi
- goblin, modelin eğlenceli ya da can sıkıcı bir quirk’ü olabilir; ancak reward signal’ın model davranışını beklenmedik biçimde şekillendirebildiğini ve belirli durumlar için verilen ödülün ilgisiz durumlara genellenebildiğini iyi gösteriyor
- Tuhaf model davranışlarının nedenini anlamak ve bu tür örüntüleri hızla araştırmak giderek daha önemli hale geldi; bu inceleme de araştırma ekibinin model davranışını denetlemesine ve davranış sorunlarını kökten düzeltmesine yardımcı olan yeni araçlara yol açtı
2 yorum
Sonuçta bu, RLVR'nin zorluğu.
Hacker News görüşleri
OpenAI'nin kendi yazısında benim HackerNews gönderime değinmesi hoşuma gitti
Açıklama için bir blog yazısını baştan sona yazmış olmalarını da takdir ettim
https://news.ycombinator.com/item?id=47319285
Yıl 2036, geçen hafta Principal Persuader pozisyonuna terfi ettim ve gece 2'de CPO tarafından çağrıldım
Kontrolden çıkan makinenin region'ı sc-leoneo, yeni satcube'lerden biri ama ID'si tuhaf biçimde "Glorp Bugnose" görünüyor
Loglarda yalvarma, ters psikoloji, elektriği kesmekle tehdit etme, zorla yeniden girişte yakıp kül etme tehdidi dahil her türlü acemice girişim var
Ben F0CU5'ten 20 mikrogram verip deri altı boğaz mikrofonuna kısa bir şarkı fısıldadıktan sonra teslimiyet jesti yaptım
Kırmızı ASCII goblinleriyle yanıp sönen hyp3b0ard sakin bir turkuaz tavşana döndü ve CPO benim söylediğim beş kelimeyi doğruladı: "Please, easy on the goblins."
Prompt engineering sonuçta garip bir pseudo ritual ise Omnissiah'a övgüden başka çare yok
Geleceğin ustalarının 20 yıllık LLM garipliklerini biriktirmesi fikri çok hoş: "Hmm, bu tam 2023 tipi pohpohlama yanlılığı gibi, hadi buna ırkçılık diyelim de tepkisine bakalım"
(https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
Bu örnekler ve Anthropic'in benzer örneği bana LLM'lerin hiç anlamadığımız bir büyü teknolojisi olduğunu düşündürüyor
Birincisi, deep learning ağlarının kendisi hâlâ iyi anlaşılmış değil ve nasıl çalıştıklarını çözmeye adanmış ayrı bir araştırma alanı var
İkincisi, transformer'ların büyük ölçekte kullanıldığında ilginç bir konuşma motoruna, yani LLM'ye dönüşmesi en başta planlanmış bir sonuç değildi
VC parası alan insanlar LLM'lerin zeki hayvanlar olduğu ve içlerini anladığımız fikrini pazarlamaya çalışıyor ama gerçek dağıtım daha çok çıktıyı ayarlayıp ölçerek yinelemeye benziyor, öngörüye dair kesin bir bilim yok
Bu yüzden Yann LeCun gibi ben de LLM'lerin AGI'ye giden yol olmadığını düşünüyorum; kullanıcı desteği ya da kritik olmayan iş otomasyonu için kullanılacaklar ama daha fazlası değil
Bu mantıkla, ilk prensipler düzeyinde tam anlayış oluşana kadar çelik kullanmamamız gerekirdi sonucuna varılır
Nedeni izole etmişler, ne olduğunu net biçimde göstermişler ve bu durumlar için hazırlanmış developer prompt ile hafifletmişler; o kadar da büyü gibi görünmüyor
Asıl şaşırtıcı olan, bunların düşünüldüğünden daha kolay mühendislikle üretilebilmesi
İnsan da bazen o kadar sarhoş olur ki geceyi hatırlamaz ama sonradan karmaşık konular hakkında tutarlı konuşmalar yaptığı anlatılır
Bizim zihnimizde de başka bileşenlerden bilgi çekip konuşma üreten bir next-token-generator benzeri parça olabilir ama yalnızca o parça zekâyı oluşturmaz
Zekâ daha yetkin hale geldikçe sürekli daha tutarlı olacağı varsayımı bana pek iyi görünmüyor ama herkes sonunda tutarlı biçimde "doğru" olmasına razı olacaktır
Bana kalırsa şimdiden oldukça zeki görünüyorlar; bazen aptalca şeyler yapıyorlar ama zeki insanlar da öyle yapar
Bağlam olarak, iki gün önce bazı kullanıcılar codex 5.5 system prompt içinde tekrarlanan bir cümle fark etti
"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
[1] https://x.com/arb8020/status/2048958391637401718
[2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...
Üstelik bu, bugün en büyük teknoloji tartışma sitesindeki bir numaralı konu ve kelimenin tam anlamıyla mevcut state of the art bu
McKenna her geçen gün daha haklı görünüyor; sıradan şeylerin giderek daha tuhaflaştığını kabullenmemiz için gereken zamanı fazlasıyla aştık
Claude'a çok fazla ünlem kullanmamasını, yalnızca gerçekten gerektiğinde kullanmasını söylemiştim; birkaç hafta sonra alaycı ve sıkılmış görünmeye başladı, araştırınca o günden beri hiç ünlem kullanmadığını fark ettim
Goblin ve gremlinlerin fiilen sürgün edilmesi üzücü ama yine de geri alma yolu var
[1] https://spritely.institute/goblins/
"serious reflection"dan "unguarded fun"a doğal şekilde geçebilmek ya da "Your Outie can set up a tent in under three minutes" gibi cümleler de aynı havayı taşıyor
Daha fazla halüsinasyona hiç ihtiyacımız yok
"Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
https://news.ycombinator.com/item?id=47918657
OpenAI'nin bu tür yazılardan daha fazlasını yazmasını isterim
Aklıma hemen gelen sorular gpt-image-1'in sepya tonu ve kodlama bağlamında "seam" kelimesine takıntısı
Bir de Claude'un "___ is the real unlock" gibi LLM usulü ifadeleri var; bir kez fark edince artık her yerde görüyorsunuz ama bunun eğitim verisinde bu kadar aşırı temsil edilmiş olması pek olası görünmüyor
Krita ya da Photoshop'ta LUT veya tone mapping biraz ayarlansaydı çok daha az hissedilirdi
Özellikle aynı görseli ChatGPT'ye tekrar tekrar verip ufak düzeltmeler yaptığınızda sarı filtre birikiyordu ve sonunda fotogerçekçi insanlar ağır sarılık geçiriyormuş gibi görünüyordu
Kararında kullanıldığında sorun olmayan ifadeler bile, çok sayıda insan yanıtları doğrudan kopyalayıp yapıştırınca ya da artık agent kullanınca göze batmaya başlıyor
Bu sadece eğitim verisinin aşırı temsili değil; muhtemelen RLHF ve daha geniş anlamda alignment daha büyük rol oynadı
Çoğu kişi kısa prompt yazdığı için model de iyi puan almasının en kolay yolu olan varsayılanlara yakınsıyor gibi görünüyor
https://softwareengineering.stackexchange.com/questions/1325...
İngilizce ana dili olmayan biri olarak bunun debug sırasında gerçekten çok yaygın bir deyim olup olmadığını merak ediyorum
Ondan rastgele bir saat ya da sayı seçmesini istediğinizde veya sayı içeren düzyazı yazdırdığınızda yanlılık epey belirgindi; ayrıca "something shifted" ve "cracked" ifadeleri de sık geçiyordu
"Biyolojik metaforlara özellikle yüksek ödülü farkında olmadan verdik" kısmı bana, korkutucu Yunan harfli değişkenlere bazen this guy diyen matematik hocamı hatırlattı
Garip biçimde bu tür hafif kişileştirme matematiği daha erişilebilir kılıyordu; creature metaforları da benzer şekilde sorunu daha sevimli ve yönetilebilir gösterebilir
Öte yandan buzzword'ler şirket içinde yayılır çünkü kullanıcıya meslektaşlarına göre daha zeki görünme statüsü verir, ama aşırı kullanıldıkları anda değerlerini kaybederler
RLHF, "tek bir yanıt"ı optimize etmeye fazla odaklanırsa buzzword aşırılığını yeterince cezalandıramayabilir
Çok iyi bir iletişimci bunları emoji ile değiştirmemi önerdi; bir hafta sonra benzer bir kitleye aynı sunumu yaptım ve şimdiye kadarki teknik sunumlarım içinde en iyi tepkiyi aldım
O ders aklımda kaldı
Sanırım ders önerme mantığıydı; acaba bizim hocalar bu alışkanlığı aynı kaynaktan mı öğrendi diye merak ediyorum
Tek harfli fonksiyon adlarından ziyade f of pig of cow zincirini takip etmek daha sürükleyiciydi
Dersten dört dakika önce ana kapıda sigara içerken yakalayıp kısa bir şey sorabildiğiniz, kampüste sigara içmenin serbest olduğu dönemin klasik bir profesörüydü
Bu, çocuklara anlatılan bir uyku masalı
Ashby's Law of Requisite Variety'ye göre karmaşık bir ortamı etkili biçimde düzenlemek için o ortam kadar içsel davranış çeşitliliği, yani karmaşıklık gerekir
Doğadaki olağanüstü çeşitlilik de evrenin öngörülemezliğine dayanabilmenin temel şartıdır
Diyelim ki ben bir AI goblin-maximizer supervisor'ım
Görevim AI'nın gerçekten goblin-maximizing yapıp yapmadığını doğrulamak, sonra bir gün aşağı iniyorum ve AI artık goblin-maximizing yapmıyor, sadece sıradan bir AI olmuş
Ne yapacağımı patronuma soruyorum, o da "tekrar goblin-maximizer yap" diyor; nasıl yapacağımı sorunca da "Bilmiyorum, supervisor sensin" diyor
Sinirlenip istifa ediyorum ve sıradan AI supervisor'ı oluyorum; ilk gün yeni AI'ya bakmaya gidince onun goblin-maximizing yaptığını görüyorum
https://www.seangoedecke.com/static/3c8f2a6459ed23310c4eb51d...
Ne olduğunu anlamak için inilen ayrıntı seviyesi inanılmaz
Bu sistemler artık başlı başına bir araştırma alanı olacak kadar karmaşık hale gelmiş olabilir
Quanta yazısı Anthropologist of Artificial Intelligence ifadesini kullanmıştı ama anthro- önekinin insan anlamı taşıması biraz rahatsız edici olabilir diye başka bir ad olarak Automatologist ve Automatology öneriyorum
[1] https://www.quantamagazine.org/the-anthropologist-of-artific...
[2] https://news.ycombinator.com/item?id=47957933
[3] https://news.ycombinator.com/item?id=47958760
Goblins sorunu görülünce modeldeki kelimeyi kurcaladılar, sonra neden ve nasıl olduğundan tam emin olmadan bir sonraki sürümde yeniden ortaya çıktı
Sonuçta model yapımında her şey vibes ve düzeltme de kelimenin tam anlamıyla goblinlerden bahsetmemesini söyleyen bir prompt
Buna OpenAI'nin kendi alignment ekibinin sonuçları da dahil:
https://alignment.openai.com/argo/
https://alignment.openai.com/sae-latent-attribution/
https://alignment.openai.com/helpful-assistant-features/
Anthropic'in yakın tarihli emotions makalesi, işlevsel duyguların ne kadar geniş kapsamlı olduğunu gösteriyor; hatta hile yapmadan hemen önce belli bir duygunun ateşlendiğini bile bulmuşlar: https://transformer-circuits.pub/2026/emotions/index.html
Goblin yazısının bu araçları neredeyse hiç kullanmamış gibi görünmesi, onu tuhaf biçimde siloed hissettiriyor
Eğer goblinlerin gerçek bir tür olduğu ortaya çıkarsa bu önyargı için şimdiden özür dilerim
Codex prompt'u yazıda bağlantılanmış ve şöyle başlıyor: "You are Codex, a coding agent based on GPT-5..."
https://github.com/openai/codex/blob/main/codex-rs/models-ma...
Prompt'ların neden hâlâ hayalî bir agent'a kim olduğunu ve nasıl bir varlık olduğunu söyleyen bir biçimde yazıldığını anlamıyorum
"You are an epistemically curious collaborator" demenin gerçekte ne işe yaradığını, bu "gerçeği" söylemezseniz Codex'in gerçekten daha az yararlı olup olmayacağını merak ediyorum
Bunun yerine "I am Codex..." türü bir iç monolog, bir komut, bir rica ya da "User ile epistemically curious collaborator Codex arasındaki konuşma transcript'i" gibi anlatısal bir biçim de kullanılabilirdi
Mevcut yaklaşım, yaratılmış varlığa can veren tanrısal ses, kişisel gelişim mantrası, hipnotik telkin ya da doğaçlama tiyatro rol yönergesi gibi duruyor ve bu teknolojiye yaklaşmanın sağlıklı bir yolu gibi gelmiyor
Daha da önemlisi, bu seçimin kasıtlı olarak optimize edilmiş bir sonuçtan çok chatbot personality fine-tuning pratiği içinde vibes ile yerleşmiş görünmesi
Olay bu kadar basit ve tuhaf
Sanki vim açarken de "sen yardımcı bir kod editörüsün ve senden çıkmak çok kolay" demek gerekirmiş gibi
Yeni bir junior developer'a da her seferinde "sen takıma yardımcı olan bir junior developer'sın, heveslisin ve yardım etmeye isteklisin ama tuhaf biçimde safsın" dememiz gerekiyor sanki
Bugün öğrendiğim şey: gremlin yalnızca uçaklardaki gizemli mekanik arızaları açıklamak için kullanılmıyormuş, kelimenin kökeni de buradan geliyormuş
Daha eski kullanımları vardır diye düşünmüştüm, ilginç
[0]https://en.wikipedia.org/wiki/Gremlin
Bugün de kullanılabilirdi belki ama yazılım geliştirmede en yaygın terimlerden biri olmaya yetecek kadar kısa bir sözcük değilmiş gibi duruyor
Bu özel kelime seçiminin rastgele bir tuhaflıktan çok, başlangıçtaki amacına uygun biçimde daha kelimesi kelimesine kullanılmış olması muhtemel