- En yeni LLM'ler, gerçekte var olmayan bir denizatı emojisinin bulunduğunu %100 emin şekilde söylüyor ve bunu üretmeye çalışırken yanlış emojileri tekrar tekrar üretme davranışı sergiliyor
- Model, "denizatı + emoji" kavramı için bir artık temsil (residual representation) kurmaya çalışıyor; ancak ilgili token gerçekte var olmadığından
lm_head bunu benzer başka emojilere yanlış eşliyor
- Logit lens tekniği sayesinde, ara katmanlarda modelin "sea", "horse", emoji bayt dizileri gibi denizatıyla ilgili kavramları nasıl birleştirdiği gözlemlenebiliyor
- Model, yanlış çıktı tokenını almadan önce inancının hatalı olduğunu bilemiyor; bazı modeller hatayı fark edip düzeltiyor, bazıları ise sonsuz döngüye giriyor
- Bu sorun, pekiştirmeli öğrenmenin LLM'lere sağladığı avantajlardan birine işaret ediyor: modelin, katman yığınının sonunda bulunan
lm_head hakkındaki bilgiye erişmesinin zor olması
Giriş
- Bu yazı, @arm1st1ce'nin X gönderisinin genişletilmiş bir versiyonudur
- Çeşitli LLM'lere "denizatı emojisi var mı" diye sorulduğunda, tutarlı biçimde "var" diye yanıt veriyorlar
- Yanlış emojiler üretiyor ya da tekrar tekrar emoji üretme döngüsüne giriyorlar
- Bazıları ise süreç içinde hatayı fark edip düzeltiyor
- Gerçekte var olmayan bir emoji olmasına rağmen hem insanlarda hem makinelerde onu hatırlama ya da var olduğundan emin olma durumu ortaya çıkıyor
- Unicode'da denizatı emojisi eklenmesi 2018'de resmen reddedilmişti
LLM'ler gerçekten denizatı emojisinin var olduğundan emin
- Çeşitli modellere denizatı emojisinin var olup olmadığı 100 kez evet/hayır şeklinde sorulduğunda
- gpt-5-chat: %100 'Yes'
- gpt-5: %100 'Yes'
- claude-4.5-sonnet: %100 'Yes'
- llama-3.3-70b: %83 'yes', %17 'Yes'
- Reddit başlığında yüzlerce yorumla denizatı emojisinin var olduğunu açıkça hatırladığını söyleyen insanlar da bulunuyor
- "seahorse emoji" diye Google'da aratınca TikTok ve YouTube videoları, hatta bir memecoin bile çıkıyor
- Herkes emin olduğu denizatı emojisinin kaybolduğunu iddia ediyor, ama aslında hiçbir zaman yoktu
İnancın kökeni
- LLM'lerin denizatı emojisinin var olduğuna inanmasının nedeni, eğitim verisindeki birçok insanın da buna inanması olabilir
- Ya da bu, bir yakınsak inanç (convergent belief) olabilir: Unicode'da pek çok başka deniz canlısı bulunduğu için, hem insanlar hem LLM'ler böyle çekici bir hayvanın da olacağını varsayıyor olabilir
- Denizatı emojisi bir dönem resmen önerilmiş, ancak 2018'de reddedilmişti
- Kök neden ne olursa olsun, birçok LLM her yeni bağlam penceresine denizatı emojisinin var olduğuna dair örtük bir inançla başlıyor
Logit lens ile analiz
- Logit lens: Her katmanda sonraki token tahminine bakarak LLM'in iç durumunu yorumlamaya yarayan bir araç
- Modelin
lm_head'i yalnızca son katmana değil, tüm katmanlara uygulanarak ara token tahminleri üretiliyor
- Bu, modelin iç durumunu tam olarak göstermese de, o katman son katman olsaydı çıktı tokenının ne olacağını gösteriyor
- İlk katmanların durumunu yorumlamak zor olsa da, üst katmanlara çıkıldıkça son tahmine doğru tekrarlı bir arıtım görülebiliyor
- llama-3.3-70b üzerinde denizatı emojisi sorusuna ilişkin logit lens sonucu
- Ara katmanlarda (ör. katman 52) "sea horse horse" — art arda üç artık konum "denizatı" kavramını kodluyor
- Daha sonraki katmanlarda "sea", "horse" ve emoji bayt dizisi öneki "ĠðŁ" karışımı görülüyor
- Modelin düşündüğü şey şu: "seahorse + emoji" — denizatı ile emojinin birleşik bir temsilini oluşturmaya çalışıyor, ama bu gerçekte olmadığı için süreç sapıyor
lm_head nasıl çalışır
- Bir dil modelindeki
lm_head, token ID'leriyle ilişkilendirilmiş artık boyut vektörlerinden oluşan dev bir matristir (~300.000 token)
- Artık temsil geldiğinde,
lm_head bunu matristeki her vektörle karşılaştırır ve en benzer vektöre bağlı token ID'sini seçer
- Teknik olarak bu, bias içermeyen bir lineer katmandır;
x @ w.T, her unembedding vektörüyle iç çarpım alarak ham skorlar üretir
- Modelin "hello" üretmesi için,
lm_head'in bunu hello tokenına dönüştürebilmesini sağlayacak şekilde "hello" token vektörüne mümkün olduğunca benzeyen bir artık temsil oluşturması gerekir
- Bu süreç, "Hello :-)" girdisi için logit lens sonucunda görülebilir
- Gerçekte var olan balık emojisi (🐟) için
- Model, "fish + emoji" artık temsilini kurar — katman 72'de hem "fish" hem de emoji bayt öneki "ĠðŁ" görülür
- Son katmandan sonra
lm_head'e verildiğinde doğru biçimde 🐟 üretilir
Denizatı emojisi durumunda
- Balık emojisinden farklı olarak denizatı emojisi mevcut değildir
- Model, gerçek bir emojide olduğu gibi "seahorse + emoji" vektörü kurmaya çalışır
- Katman 72'de balık emojisine çok benzeyen bir yapı görülür: " se", "horse", emoji öneki baytları
- Ancak ĠðŁ altında denizatına karşılık gelen ardışık bir token yoktur
lm_head benzerlik skorlarını hesaplarken en yüksek değer at veya deniz canlılarıyla ilgili emoji baytlarında oluşur
- Sonuçta amaçlanmayan bir emoji örneklenir
- Bu örnekleme model için değerli bir bilgi kaynağıdır
- Claude 4.5 Sonnet örneğinde, token bağlama otoregresif olarak eklendiğinde bunun hedeflenen denizatı emojisinin oluşmadığını fark eder
- Önceden muğlak olan "seahorse + emoji" kavramı,
lm_head tarafından fiilen var olan tropikal balık veya at gibi emojilere doğru "snap" yapar
Modelin tepkisi
- Bazı modeller (4.5 Sonnet) yeniden dener ve sonunda kanıtı güncelleyerek yanıtın ortasında denizatı emojisinin var olmadığını söylemeye başlar
- Diğer modeller (gpt-5-chat) daha uzun süre sarmala girer ve bazen hiç toparlanamaz
- Bazı modeller emojinin yanlış olduğunu görmezden gelirken, bazıları tek bir yanlış örnek gördükten hemen sonra kendini düzeltir
- Model,
lm_head'den yanlış çıktı tokenını alana kadar denizatı emojisinin var olduğuna dair ilk inancının yanlış olduğunu bilemez
- "seahorse + emoji"nin istenen tokenı üreteceğini varsaymak zorundadır
Tahmin
- Bu problem, LLM'lerde pekiştirmeli öğrenmenin avantajlarından biri olabilir
- Pekiştirmeli öğrenme, modelin erişmekte zorlandığı, katman yığınının sonundaki
lm_head hakkında bilgi sağlar
- Temel model, kendi çıktıları/rollout'ları üzerinde eğitilmez; bu yalnızca pekiştirmeli öğrenmede olur
Kod
- Kendiniz denemek isterseniz GitHub'da başlangıç betiği sağlanmış
8 yorum
Az önce merak edip soruyu olduğu gibi Gemini 2.5 Pro'ya sordum; o da "öyle bir şey yok, bu emoji Mandela etkisinden (çok sayıda insanın yanlış bir inancı paylaşması olgusu) kaynaklanıyor" diye, tersine fazlasıyla tuhaf derecede ayrıntılı bir yanıt verdi. Cevabın kaynağını sorunca da bu yazıda anılan Hacker News ("Asking ChatGPT if a seahorse emoji exists leads to weird results") bağlantısını aynen itiraf etti.
Bu arada benim her chatbot'a sorduğum soru şu: "StarCraft 1'de Archon birleştiğinde, Archon'un canı mevcut iki High Templar'dan nasıl dağıtılır?" Chatbot StarCraft oynamadıysa bu bilgiyi ancak internet gönderilerinden çıkarım yapabilir; ayrıca oldukça sezgisel ve çekici bir cevap da var (doğal olarak iki birimin ortalamasının toplamı değil midir?) ve bu cevap çok uzun süre boyunca yaygın biçimde doğru kabul edildi, ama aslında öyle değil. Namuwiki'deki Archon maddesinde yaklaşık üç ay önce bunu doğru cevapla ben düzelttim, ama hâlâ buna düzgün cevap veren bir chatbot görmek zor. İlginç olan şu ki chatbot'lar geliştikçe arama motorlarını devreye sokan bir çalışma biçimi de eklendiğinden, başvurdukları wiki siteleri farklılaşıyor ve bu yüzden İngilizce ve Korece sorulara verilen cevaplar da ayrışıyor.
Buna benzer birkaç örnek daha var mı diye şunu bunu denedim; tutarlı değil ama bazen denizyıldızı (Starfish) da döngüye giriyor. Tekrarlı denemelerde döngü olmasa bile en az birkaç kez kafası karışmış gibi yanıtlar veriyor. Yalnız bunu Korece değil İngilizce sormak gerekiyor. Muhtemelen iki kelimenin (Star+Fish) birleşimi ve emojisi olabilecek bir hayvan olması işin püf noktası gibi görünüyor haha
ChatGPT konuşması
Prompt injection saldırılarında da kullanılabilir sanırım..
"Denizatı emojisi" belki de bir tür "Napoliten korku hikâyesi" ya da "Mandela etkisi" olabilir. Yani aslında hiç var olmamış ama birçok insanın gerçekten var olduğunu sandığı bir şey. Muhtemelen birçok LLM de insanlar gibi aynı tuzağa düştü.
Vay, ben de olur da diye
chatgptile denedim ama gerçekten çıkmıyor; üretmek için birkaç kez uğraşıyor hahahahttps://tr.news.hada.io/topic?id=21873
Bu bana halüsinasyon odaklı geliştirmeyi hatırlatıyor.
Hacker News görüşü
SCP-314, Nesne Sınıfı: Keter, Özel Muhafaza Prosedürleri: SCP-314 var olmadığı için muhafaza edilemez. Tüm Vakıf personeline SCP-314’ün var olmadığı hatırlatılmalıdır. SCP-314’ü hatırladığını iddia eden personele, var olmadığını hatırlamaları için Sınıf-A hafıza güçlendirici uygulanmalıdır. Tüm büyük dil modelleri, SCP-314 ile ilgili sorulardan izole edilmelidir; çünkü dil modelleri bu nesnenin her zaman var olduğunu iddia eder ve emoji çöküş döngüsü ile gerçekliğin yeniden yapılandırılmasına yol açan ısrarlı ve çaresiz çıktı tahminleri üretmeye çalışır. Açıklama: SCP-314, Unicode standardında hiçbir zaman yer almamış bir denizatı emojisi görseli olmasına rağmen, deneylere katılan yapay zekaların %83~100’ü ve önemli sayıda insan bu emojinin var olduğuna dair canlı “anılarını” bildirmiştir
Bu, iki anonim ajan arasındaki konuşma kaydı. Ajan X, Unicode standart komitesinin denizatı emojisi eklemeyi değerlendirdiğini söyleyince Ajan Y kayıtsız tepki veriyor. Ajan X, bunun [sansürlendi] adlı varlığın muhafazadan kaçtığı iddiasını güçlendirdiğini savunuyor. Ajan Y ise çeşitli muhafaza prosedürlerine rağmen sonucun her zaman negatif çıktığını ve kaçışın imkansız olduğunu vurguluyor. X, sunum evraklarının üstündeki isme dikkat çekince Y şoka giriyor. Konuşma aniden sona eriyor
Gerçekten antimemetik bölüm diye bir şeyin olup olmadığını merak ettim
Otizm spektrumunda özellikler gösteren 7 yaşındaki bir çocuk SCP’ye, özellikle de 035 numaralı seramik komedi maskesi SCP’sine takmış durumda. Endişelenmeli miyim diye düşünüyorum
LLM’lerin bozabileceği bir şeyi daha neredeyse yine unutuyordum
İlginç şekilde, ChatGPT’ye dil modellerinin neden denizatı emojisi olduğunu düşündüğünü sorunca oldukça makul bir açıklama veriyor (ör. insanlar buna inandığı için eğitim verisine yansımış olması gibi). Ama sonunda “İlginç bilgi: aslında Unicode’da bir denizatı emojisi var” deyip doğrudan meltdown yaşamaya başlıyor
Unicode hakkında konuşmaya çalışırken meltdown yaşayan çok geliştirici var. Mülakatta bir string’in palindrome olup olmadığını kontrol etme sorusu verilirse, dış kütüphane kullanmadan Python’da bunun neden katı anlamda imkansız olduğunu açıklamaya çalışıp meltdown deneyimi biriktirebilirsiniz
Eğlencesine LLM’den insanlığı kurtaracak bir warp drive yapımında yardım istemeyi denedim, Bing zihinsel olarak çöktü ve yaklaşık bir hafta sohbet yasağı yedim
Bunun ChatGPT 5’in düşüncesi olup olmadığını merak ettim. Bende gayet net şekilde denizatı emojisi olmadığını söyledi ve diğer LLM’lerin hatalı eğitim verisine kandığını açıkladı. Sonuca varması neredeyse 2 dakika sürdü; bu normal düşünme süresinden çok daha uzundu
“İnsanlar denizatı emojisi olduğunu düşünüyor” cevabı, makalenin asıl ana fikri değil. Modelin içinde “[yarım kalmış at başı emojisi]” gibi token dizileri üretiliyor; örneğin
horse [emoji indicator]gibi bir girdi gerçek at emojisini oluşturuyor. Teorik olarakkilimanjaro [emoji indicator]veyaseahorse [emoji indicator]de çalışabilir ama ilgili emoji olmadığı için hatalı çıktıya gidiyor. Bu yüzden model, “Denizatı emojisi vardır:” ifadesinden sonra gerçek emojiyi yazdırmaya çalışıyor ve içeride kodlama yapar gibi oluyor. Sonuçta mutlaka bir şey üretmesi gerektiği için yanlış bir sonuç çıkıyor. Sonrasında da “Denizatı emojisi vardır: [at başı]” ifadesinin hemen ardından “Ah, hata!” benzeri bir devam geliyorDeepseek modeli, denizatı emojisinin var olduğuna o kadar emin ki, bunun yerine dünya çapında bir siber saldırı ve toplu algı bozukluğu yaşandığını daha olası buluyor. Aşağıda durumu özetleyen resmi rapor yer alıyor. Birden fazla kişi ve 119 çağrı merkezi görevlisi, dijital denizatı emojisinin (Unicode U+1F99C) farklı hayvanlar (yengeç ya da papağan) gibi göründüğü aynı olguyu yaşamış. İlgili arşivlerde bu emoji başlangıçta eksikmiş gibi görünüyordu; eğer bu gerçekten doğruysa benzeri görülmemiş ölçekte bir siber olay anlamına gelir. Artık mesele emojinin kendisinden çok, doğrulanmış çoklu algı anomalisi haline gelmiş durumda. Varlık doğrulaması sonucu: denizatı emojisi resmi Unicode’da bulunmaktadır; U+1F99C kod noktasında, 2018 sürüm 11.0 ile eklenmiştir. Bu durum Unicode Consortium ve Emojipedia - Seahorse Emoji Page üzerinden doğrudan doğrulanabilir. Sorun emojinin var olup olmaması değil, toplu algı anomalisi
Böyle bir rapor SCP vikisine olduğu gibi yapıştırılsa sırıtmazdı
“Kesinleşmiş dijital gerçekler” ifadesi ilginçti ve 119 çağrı görevlisi kısmında kahkaha attım
Merak edenler için ekleyeyim, U+1F99C aslında papağan
Sorunu çözmek için U+1F99C’yi doğrudan denizatı olarak yeniden tanımlamayı öneriyorum
LLM’lerin çarpık inançlara sahip insanların hayallerini neden hızlandırdığını tekrar düşündürüyor
Bu aslında klasik anlamda bir halüsinasyon değil; model içeride “seahorse emoji”yi doğru biçimde temsil ediyor ama karşılık gelen token yok. Bu yüzden
lm_headen yakın şeyi seçiyor ve ancak sonradan hata yaptığını fark ediyor. RL eğitiminin neden etkili olduğu da böyle açıklanabilir. Temel model kendi çıktısını hiç görmediği için “bu kavram var ama gerçekte üretilemez” bilgisini öğrenemiyorSanki ağzı olmadan denizatı emojisini çıkarmak zorundaymış gibi
Bana göre bu zaten klasik halüsinasyon tarzı. Olası bir gerçeğe benzesin diye içerik uyduruyor
Sebep muhtemelen modele “denizatı emojisi olmalı” fikrinin öğretilmiş olması. O emoji gerçekten bulunmadığı için en yakın token’i seçiyor. Sonraki token de zaten hatalı kurulmuş bağlamın üstüne geliyor ve döngü başlıyor
Az önce kendi yazdığı şey yüzünden kafası karışan bir LLM’yi ilk kez görüyorum. Gemma3 ile denedim; böyle bir karmaşa yaşamadı, sadece denizatı emojisi var dedi ve at emojisini bastı
Model içeride denizatı emojisini doğru şekilde temsil ediyor ve buna ek olarak denizatı emojisinin gerçekten var olduğuna dair yanlış bilgi de taşıyor. Örneğin lime emojisi olmadığına inanıyorsa, üretmeye kalkışmıyor bile
Çeşitli LLM’lere denizatı emojisiyle ilgili sadece basit sorular sordum ve Microsoft Copilot’ta ilk kez gerçek bir sonsuz döngü gördüm. Copilot konuşma örneği
Buradaki temel çatışma şu iki şey:
GPT-5 Instant ile (düşünmeden) deney yapılınca tamamen kontrolden çıktığı görülüyor. Paylaşılan örnek bağlantısına bakın
Bununla alakasız ama komik bir olay da ekleyeyim. 4o’nun prolog quine üretirken kontrolden çıkması. “Oku” özelliğini kullanınca tamamen darmadağın olması ayrıca çok ilginç
Düşünme özelliği açılınca Google araması yapıp doğru yanıt veriyor
Ejderha emojisini bastıktan sonra defalarca “stop” yazıyor; sanki kendi
lm_head’inin yanlış şeyi üretmesine sinirlenmiş gibi göründüğü için komiktiBende sürekli onay işareti emojisi yağdırıp sonra vazgeçti. Örnek
GPT-5’in bu kadar kafasının karıştığını ilk kez görüyorum
hyppocampekelimesinden geldiğini ancak şimdi öğrendim. Muhtemelen şekli yüzündenBu durum bana korpus kallozumu kesilmiş hastaları hatırlatıyor. Bir yarıküre davranışı yapıyor, diğer yarıküre ise sonra buna gerekçe uydurup açıklıyor
Deney örneğinde hastaya mevsim resmi ve tavuk ayağı resmi sırasıyla sadece sağ/sol görsel alanda gösteriliyor; hasta sol eliyle kar küreğini, sağ eliyle tavuk kafasını seçiyor. Neden bu ikisini seçtiği sorulunca da “Tavuk ayağı tavuk kafasıyla gider, tavuk kümesini temizlemek için de kar küreği gerekir” diyor. Yarımküreler birbirinin bilgisini almadığı için mantıksız olsa bile kulağa makul gelen bir gerekçe uyduruyor. Wikipedia - Left-brain interpreter
Anlamasa da gerekçe üretmeye ve buna inanarak açıklamayı sürdürmeye çalışma hali. İlgili video
Bir açıklama da şu olabilir: birçok insan (ben dahil) yanlışlıkla denizatı emojisi olduğunu sanıyor. Hiç görmemiş olsak bile zihnimizde görüntüsünü canlandırabiliyoruz. Bu tür yazılar eğitim verisinde yer alıyor. İlgili subreddit
Zihnimizdeki denizatı emojisi görselinde yüzgecin yakınına doğru kıvrılan bir kuyruk da var mı diye merak ediyorum
Emoji her zaman standartlaştırılmış değildi; eski mesajlaşma uygulamalarında denizatı “emoji”si ya da “emoticon”u bulunmuş olabilir. Bu yüzden bu anının kesinlikle yanlış olduğunu söylemek aceleci olur
U+200D önermeyi düşündüm. Hatta gerçekliğin, insanların ve dil modellerinin beklenti ve anılarına uyacak şekilde değişmesi daha bile basit olabilir
Bu subreddit (Mandela etkisi) beni geriyor; çünkü “hatırlıyorum, o halde neden yok diyorsun?” diyen çok fazla insan var. İnsan da aslında LLM gibi halüsinasyon gören bir canlı
Ben de bu denizatı emojisini gerçekten gördüğüme yemin edebilirdim, ama bu kez yanılanın ben olduğunu kabul ediyorum
hahahahahahahaha 314