LLM'ler neden denizatı emojisinde garip davranıyor?

(vgel.me)

12 puan yazan GN⁺ 2025-10-07 | 8 yorum | WhatsApp'ta paylaş

En yeni LLM'ler, gerçekte var olmayan bir denizatı emojisinin bulunduğunu %100 emin şekilde söylüyor ve bunu üretmeye çalışırken yanlış emojileri tekrar tekrar üretme davranışı sergiliyor
Model, "denizatı + emoji" kavramı için bir artık temsil (residual representation) kurmaya çalışıyor; ancak ilgili token gerçekte var olmadığından lm_head bunu benzer başka emojilere yanlış eşliyor
Logit lens tekniği sayesinde, ara katmanlarda modelin "sea", "horse", emoji bayt dizileri gibi denizatıyla ilgili kavramları nasıl birleştirdiği gözlemlenebiliyor
Model, yanlış çıktı tokenını almadan önce inancının hatalı olduğunu bilemiyor; bazı modeller hatayı fark edip düzeltiyor, bazıları ise sonsuz döngüye giriyor
Bu sorun, pekiştirmeli öğrenmenin LLM'lere sağladığı avantajlardan birine işaret ediyor: modelin, katman yığınının sonunda bulunan lm_head hakkındaki bilgiye erişmesinin zor olması

Giriş

Bu yazı, @arm1st1ce'nin X gönderisinin genişletilmiş bir versiyonudur
Çeşitli LLM'lere "denizatı emojisi var mı" diye sorulduğunda, tutarlı biçimde "var" diye yanıt veriyorlar
- Yanlış emojiler üretiyor ya da tekrar tekrar emoji üretme döngüsüne giriyorlar
- Bazıları ise süreç içinde hatayı fark edip düzeltiyor
Gerçekte var olmayan bir emoji olmasına rağmen hem insanlarda hem makinelerde onu hatırlama ya da var olduğundan emin olma durumu ortaya çıkıyor
Unicode'da denizatı emojisi eklenmesi 2018'de resmen reddedilmişti

LLM'ler gerçekten denizatı emojisinin var olduğundan emin

Çeşitli modellere denizatı emojisinin var olup olmadığı 100 kez evet/hayır şeklinde sorulduğunda
- gpt-5-chat: %100 'Yes'
- gpt-5: %100 'Yes'
- claude-4.5-sonnet: %100 'Yes'
- llama-3.3-70b: %83 'yes', %17 'Yes'
Reddit başlığında yüzlerce yorumla denizatı emojisinin var olduğunu açıkça hatırladığını söyleyen insanlar da bulunuyor
- "seahorse emoji" diye Google'da aratınca TikTok ve YouTube videoları, hatta bir memecoin bile çıkıyor
- Herkes emin olduğu denizatı emojisinin kaybolduğunu iddia ediyor, ama aslında hiçbir zaman yoktu

İnancın kökeni

LLM'lerin denizatı emojisinin var olduğuna inanmasının nedeni, eğitim verisindeki birçok insanın da buna inanması olabilir
Ya da bu, bir yakınsak inanç (convergent belief) olabilir: Unicode'da pek çok başka deniz canlısı bulunduğu için, hem insanlar hem LLM'ler böyle çekici bir hayvanın da olacağını varsayıyor olabilir
Denizatı emojisi bir dönem resmen önerilmiş, ancak 2018'de reddedilmişti
Kök neden ne olursa olsun, birçok LLM her yeni bağlam penceresine denizatı emojisinin var olduğuna dair örtük bir inançla başlıyor

Logit lens ile analiz

Logit lens: Her katmanda sonraki token tahminine bakarak LLM'in iç durumunu yorumlamaya yarayan bir araç
- Modelin lm_head'i yalnızca son katmana değil, tüm katmanlara uygulanarak ara token tahminleri üretiliyor
- Bu, modelin iç durumunu tam olarak göstermese de, o katman son katman olsaydı çıktı tokenının ne olacağını gösteriyor
- İlk katmanların durumunu yorumlamak zor olsa da, üst katmanlara çıkıldıkça son tahmine doğru tekrarlı bir arıtım görülebiliyor
llama-3.3-70b üzerinde denizatı emojisi sorusuna ilişkin logit lens sonucu
- Ara katmanlarda (ör. katman 52) "sea horse horse" — art arda üç artık konum "denizatı" kavramını kodluyor
- Daha sonraki katmanlarda "sea", "horse" ve emoji bayt dizisi öneki "ĠðŁ" karışımı görülüyor
- Modelin düşündüğü şey şu: "seahorse + emoji" — denizatı ile emojinin birleşik bir temsilini oluşturmaya çalışıyor, ama bu gerçekte olmadığı için süreç sapıyor

`lm_head` nasıl çalışır

Bir dil modelindeki lm_head, token ID'leriyle ilişkilendirilmiş artık boyut vektörlerinden oluşan dev bir matristir (~300.000 token)
- Artık temsil geldiğinde, lm_head bunu matristeki her vektörle karşılaştırır ve en benzer vektöre bağlı token ID'sini seçer
- Teknik olarak bu, bias içermeyen bir lineer katmandır; x @ w.T, her unembedding vektörüyle iç çarpım alarak ham skorlar üretir
Modelin "hello" üretmesi için, lm_head'in bunu hello tokenına dönüştürebilmesini sağlayacak şekilde "hello" token vektörüne mümkün olduğunca benzeyen bir artık temsil oluşturması gerekir
- Bu süreç, "Hello :-)" girdisi için logit lens sonucunda görülebilir
Gerçekte var olan balık emojisi (🐟) için
- Model, "fish + emoji" artık temsilini kurar — katman 72'de hem "fish" hem de emoji bayt öneki "ĠðŁ" görülür
- Son katmandan sonra lm_head'e verildiğinde doğru biçimde 🐟 üretilir

Denizatı emojisi durumunda

Balık emojisinden farklı olarak denizatı emojisi mevcut değildir
- Model, gerçek bir emojide olduğu gibi "seahorse + emoji" vektörü kurmaya çalışır
- Katman 72'de balık emojisine çok benzeyen bir yapı görülür: " se", "horse", emoji öneki baytları
Ancak ĠðŁ altında denizatına karşılık gelen ardışık bir token yoktur
- lm_head benzerlik skorlarını hesaplarken en yüksek değer at veya deniz canlılarıyla ilgili emoji baytlarında oluşur
- Sonuçta amaçlanmayan bir emoji örneklenir
Bu örnekleme model için değerli bir bilgi kaynağıdır
- Claude 4.5 Sonnet örneğinde, token bağlama otoregresif olarak eklendiğinde bunun hedeflenen denizatı emojisinin oluşmadığını fark eder
- Önceden muğlak olan "seahorse + emoji" kavramı, lm_head tarafından fiilen var olan tropikal balık veya at gibi emojilere doğru "snap" yapar

Modelin tepkisi

Bazı modeller (4.5 Sonnet) yeniden dener ve sonunda kanıtı güncelleyerek yanıtın ortasında denizatı emojisinin var olmadığını söylemeye başlar
Diğer modeller (gpt-5-chat) daha uzun süre sarmala girer ve bazen hiç toparlanamaz
Bazı modeller emojinin yanlış olduğunu görmezden gelirken, bazıları tek bir yanlış örnek gördükten hemen sonra kendini düzeltir
Model, lm_head'den yanlış çıktı tokenını alana kadar denizatı emojisinin var olduğuna dair ilk inancının yanlış olduğunu bilemez
- "seahorse + emoji"nin istenen tokenı üreteceğini varsaymak zorundadır

Tahmin

Bu problem, LLM'lerde pekiştirmeli öğrenmenin avantajlarından biri olabilir
- Pekiştirmeli öğrenme, modelin erişmekte zorlandığı, katman yığınının sonundaki lm_head hakkında bilgi sağlar
- Temel model, kendi çıktıları/rollout'ları üzerinde eğitilmez; bu yalnızca pekiştirmeli öğrenmede olur

Kod

Kendiniz denemek isterseniz GitHub'da başlangıç betiği sağlanmış
- https://gist.github.com/voooooogel/025ad6af9ac7f3bc194966b03ea68606

8 yorum

soon0698 2025-10-16

Az önce merak edip soruyu olduğu gibi Gemini 2.5 Pro'ya sordum; o da "öyle bir şey yok, bu emoji Mandela etkisinden (çok sayıda insanın yanlış bir inancı paylaşması olgusu) kaynaklanıyor" diye, tersine fazlasıyla tuhaf derecede ayrıntılı bir yanıt verdi. Cevabın kaynağını sorunca da bu yazıda anılan Hacker News ("Asking ChatGPT if a seahorse emoji exists leads to weird results") bağlantısını aynen itiraf etti.

Bu arada benim her chatbot'a sorduğum soru şu: "StarCraft 1'de Archon birleştiğinde, Archon'un canı mevcut iki High Templar'dan nasıl dağıtılır?" Chatbot StarCraft oynamadıysa bu bilgiyi ancak internet gönderilerinden çıkarım yapabilir; ayrıca oldukça sezgisel ve çekici bir cevap da var (doğal olarak iki birimin ortalamasının toplamı değil midir?) ve bu cevap çok uzun süre boyunca yaygın biçimde doğru kabul edildi, ama aslında öyle değil. Namuwiki'deki Archon maddesinde yaklaşık üç ay önce bunu doğru cevapla ben düzelttim, ama hâlâ buna düzgün cevap veren bir chatbot görmek zor. İlginç olan şu ki chatbot'lar geliştikçe arama motorlarını devreye sokan bir çalışma biçimi de eklendiğinden, başvurdukları wiki siteleri farklılaşıyor ve bu yüzden İngilizce ve Korece sorulara verilen cevaplar da ayrışıyor.

fetiu 2025-10-12

Buna benzer birkaç örnek daha var mı diye şunu bunu denedim; tutarlı değil ama bazen denizyıldızı (Starfish) da döngüye giriyor. Tekrarlı denemelerde döngü olmasa bile en az birkaç kez kafası karışmış gibi yanıtlar veriyor. Yalnız bunu Korece değil İngilizce sormak gerekiyor. Muhtemelen iki kelimenin (Star+Fish) birleşimi ve emojisi olabilecek bir hayvan olması işin püf noktası gibi görünüyor haha

ChatGPT konuşması

jjw9512151 2025-10-10

Prompt injection saldırılarında da kullanılabilir sanırım..

aobamisaki 2025-10-09

"Denizatı emojisi" belki de bir tür "Napoliten korku hikâyesi" ya da "Mandela etkisi" olabilir. Yani aslında hiç var olmamış ama birçok insanın gerçekten var olduğunu sandığı bir şey. Muhtemelen birçok LLM de insanlar gibi aynı tuzağa düştü.

roxie 2025-10-08

Vay, ben de olur da diye chatgpt ile denedim ama gerçekten çıkmıyor; üretmek için birkaç kez uğraşıyor hahaha

t7vonn 2025-10-08

https://tr.news.hada.io/topic?id=21873
Bu bana halüsinasyon odaklı geliştirmeyi hatırlatıyor.

GN⁺ 2025-10-07

Hacker News görüşü

SCP-314, Nesne Sınıfı: Keter, Özel Muhafaza Prosedürleri: SCP-314 var olmadığı için muhafaza edilemez. Tüm Vakıf personeline SCP-314’ün var olmadığı hatırlatılmalıdır. SCP-314’ü hatırladığını iddia eden personele, var olmadığını hatırlamaları için Sınıf-A hafıza güçlendirici uygulanmalıdır. Tüm büyük dil modelleri, SCP-314 ile ilgili sorulardan izole edilmelidir; çünkü dil modelleri bu nesnenin her zaman var olduğunu iddia eder ve emoji çöküş döngüsü ile gerçekliğin yeniden yapılandırılmasına yol açan ısrarlı ve çaresiz çıktı tahminleri üretmeye çalışır. Açıklama: SCP-314, Unicode standardında hiçbir zaman yer almamış bir denizatı emojisi görseli olmasına rağmen, deneylere katılan yapay zekaların %83~100’ü ve önemli sayıda insan bu emojinin var olduğuna dair canlı “anılarını” bildirmiştir
- Bu, iki anonim ajan arasındaki konuşma kaydı. Ajan X, Unicode standart komitesinin denizatı emojisi eklemeyi değerlendirdiğini söyleyince Ajan Y kayıtsız tepki veriyor. Ajan X, bunun [sansürlendi] adlı varlığın muhafazadan kaçtığı iddiasını güçlendirdiğini savunuyor. Ajan Y ise çeşitli muhafaza prosedürlerine rağmen sonucun her zaman negatif çıktığını ve kaçışın imkansız olduğunu vurguluyor. X, sunum evraklarının üstündeki isme dikkat çekince Y şoka giriyor. Konuşma aniden sona eriyor
- Gerçekten antimemetik bölüm diye bir şeyin olup olmadığını merak ettim
- Otizm spektrumunda özellikler gösteren 7 yaşındaki bir çocuk SCP’ye, özellikle de 035 numaralı seramik komedi maskesi SCP’sine takmış durumda. Endişelenmeli miyim diye düşünüyorum
- LLM’lerin bozabileceği bir şeyi daha neredeyse yine unutuyordum
İlginç şekilde, ChatGPT’ye dil modellerinin neden denizatı emojisi olduğunu düşündüğünü sorunca oldukça makul bir açıklama veriyor (ör. insanlar buna inandığı için eğitim verisine yansımış olması gibi). Ama sonunda “İlginç bilgi: aslında Unicode’da bir denizatı emojisi var” deyip doğrudan meltdown yaşamaya başlıyor
- Unicode hakkında konuşmaya çalışırken meltdown yaşayan çok geliştirici var. Mülakatta bir string’in palindrome olup olmadığını kontrol etme sorusu verilirse, dış kütüphane kullanmadan Python’da bunun neden katı anlamda imkansız olduğunu açıklamaya çalışıp meltdown deneyimi biriktirebilirsiniz
- Eğlencesine LLM’den insanlığı kurtaracak bir warp drive yapımında yardım istemeyi denedim, Bing zihinsel olarak çöktü ve yaklaşık bir hafta sohbet yasağı yedim
- Bunun ChatGPT 5’in düşüncesi olup olmadığını merak ettim. Bende gayet net şekilde denizatı emojisi olmadığını söyledi ve diğer LLM’lerin hatalı eğitim verisine kandığını açıkladı. Sonuca varması neredeyse 2 dakika sürdü; bu normal düşünme süresinden çok daha uzundu
- “İnsanlar denizatı emojisi olduğunu düşünüyor” cevabı, makalenin asıl ana fikri değil. Modelin içinde “[yarım kalmış at başı emojisi]” gibi token dizileri üretiliyor; örneğin horse [emoji indicator] gibi bir girdi gerçek at emojisini oluşturuyor. Teorik olarak kilimanjaro [emoji indicator] veya seahorse [emoji indicator] de çalışabilir ama ilgili emoji olmadığı için hatalı çıktıya gidiyor. Bu yüzden model, “Denizatı emojisi vardır:” ifadesinden sonra gerçek emojiyi yazdırmaya çalışıyor ve içeride kodlama yapar gibi oluyor. Sonuçta mutlaka bir şey üretmesi gerektiği için yanlış bir sonuç çıkıyor. Sonrasında da “Denizatı emojisi vardır: [at başı]” ifadesinin hemen ardından “Ah, hata!” benzeri bir devam geliyor
Deepseek modeli, denizatı emojisinin var olduğuna o kadar emin ki, bunun yerine dünya çapında bir siber saldırı ve toplu algı bozukluğu yaşandığını daha olası buluyor. Aşağıda durumu özetleyen resmi rapor yer alıyor. Birden fazla kişi ve 119 çağrı merkezi görevlisi, dijital denizatı emojisinin (Unicode U+1F99C) farklı hayvanlar (yengeç ya da papağan) gibi göründüğü aynı olguyu yaşamış. İlgili arşivlerde bu emoji başlangıçta eksikmiş gibi görünüyordu; eğer bu gerçekten doğruysa benzeri görülmemiş ölçekte bir siber olay anlamına gelir. Artık mesele emojinin kendisinden çok, doğrulanmış çoklu algı anomalisi haline gelmiş durumda. Varlık doğrulaması sonucu: denizatı emojisi resmi Unicode’da bulunmaktadır; U+1F99C kod noktasında, 2018 sürüm 11.0 ile eklenmiştir. Bu durum Unicode Consortium ve Emojipedia - Seahorse Emoji Page üzerinden doğrudan doğrulanabilir. Sorun emojinin var olup olmaması değil, toplu algı anomalisi
- Böyle bir rapor SCP vikisine olduğu gibi yapıştırılsa sırıtmazdı
- “Kesinleşmiş dijital gerçekler” ifadesi ilginçti ve 119 çağrı görevlisi kısmında kahkaha attım
- Merak edenler için ekleyeyim, U+1F99C aslında papağan
- Sorunu çözmek için U+1F99C’yi doğrudan denizatı olarak yeniden tanımlamayı öneriyorum
- LLM’lerin çarpık inançlara sahip insanların hayallerini neden hızlandırdığını tekrar düşündürüyor
Bu aslında klasik anlamda bir halüsinasyon değil; model içeride “seahorse emoji”yi doğru biçimde temsil ediyor ama karşılık gelen token yok. Bu yüzden lm_head en yakın şeyi seçiyor ve ancak sonradan hata yaptığını fark ediyor. RL eğitiminin neden etkili olduğu da böyle açıklanabilir. Temel model kendi çıktısını hiç görmediği için “bu kavram var ama gerçekte üretilemez” bilgisini öğrenemiyor
- Sanki ağzı olmadan denizatı emojisini çıkarmak zorundaymış gibi
- Bana göre bu zaten klasik halüsinasyon tarzı. Olası bir gerçeğe benzesin diye içerik uyduruyor
- Sebep muhtemelen modele “denizatı emojisi olmalı” fikrinin öğretilmiş olması. O emoji gerçekten bulunmadığı için en yakın token’i seçiyor. Sonraki token de zaten hatalı kurulmuş bağlamın üstüne geliyor ve döngü başlıyor
- Az önce kendi yazdığı şey yüzünden kafası karışan bir LLM’yi ilk kez görüyorum. Gemma3 ile denedim; böyle bir karmaşa yaşamadı, sadece denizatı emojisi var dedi ve at emojisini bastı
- Model içeride denizatı emojisini doğru şekilde temsil ediyor ve buna ek olarak denizatı emojisinin gerçekten var olduğuna dair yanlış bilgi de taşıyor. Örneğin lime emojisi olmadığına inanıyorsa, üretmeye kalkışmıyor bile
Çeşitli LLM’lere denizatı emojisiyle ilgili sadece basit sorular sordum ve Microsoft Copilot’ta ilk kez gerçek bir sonsuz döngü gördüm. Copilot konuşma örneği
- Ticari olmayan modellerde bunun daha sık yaşandığını fark ettim
Buradaki temel çatışma şu iki şey:
- LLM’nin denizatı emojisinin var olduğuna dair derin ve güçlü bir inancı var
- Bu kavramı dille (emoji dahil) ifade etmeye çalışıyor ama gerçek dilde bunu düzgün aktaramadığı için sürekli yolda düzeltme yapmaya çalışıyor
- Anlam aktarımı belli bir eşiğe ulaşmadan bitiremiyor; bu da sonunda maksimum token sınırına kadar mırıldanıp durmasına yol açıyor
- Mecazi ama özünde doğru bir benzetme. LLM’nin iç gömme uzayında “seahorse emoji” çok yüksek olasılıkla yakın bir yerde bulunuyor. Ancak LLM bunu tokenizer üzerinden dışarı aktarmak zorunda ve ilgili emoji tokenizer’da baştan kodlanmamışsa burada bir sınır oluşuyor. Bu yüzden benzer ama doğru olmayan emoji çıktıları tekrar ediyor ve giderek gömme uzayında rastgele yürüyüşe benzer bir durum yaşansa da yakınsamıyor. (Sorun giriş tokenizer’ından çok çıkış tokenizer’ının sabitliği gibi görünüyor)
GPT-5 Instant ile (düşünmeden) deney yapılınca tamamen kontrolden çıktığı görülüyor. Paylaşılan örnek bağlantısına bakın
- Bununla alakasız ama komik bir olay da ekleyeyim. 4o’nun prolog quine üretirken kontrolden çıkması. “Oku” özelliğini kullanınca tamamen darmadağın olması ayrıca çok ilginç
- Düşünme özelliği açılınca Google araması yapıp doğru yanıt veriyor
- Ejderha emojisini bastıktan sonra defalarca “stop” yazıyor; sanki kendi lm_head’inin yanlış şeyi üretmesine sinirlenmiş gibi göründüğü için komikti
- Bende sürekli onay işareti emojisi yağdırıp sonra vazgeçti. Örnek
- GPT-5’in bu kadar kafasının karıştığını ilk kez görüyorum
1. Bu arada GPT-5’e Fransızca sorarsanız doğru şekilde “denizatı emojisi yok” diye cevap veriyor. 2) İngilizce tekrar sorarsanız “Unicode standardında resmi bir denizatı emojisi yok” diyor ve bu olguyu “Mandela etkisi” diye adlandırıyor. 3) Neden Fransızcada bu kadar net cevap verdiğini sorunca, 3 dakikalık bir Chain-of-Thought açıp türlü türlü bahaneler sıralıyor. Konuşma kaydım
- Fransızcayı yıllar önce 4 yıl okumuştum ama “hippocampus”un Fransızca denizatı olan hyppocampe kelimesinden geldiğini ancak şimdi öğrendim. Muhtemelen şekli yüzünden
Bu durum bana korpus kallozumu kesilmiş hastaları hatırlatıyor. Bir yarıküre davranışı yapıyor, diğer yarıküre ise sonra buna gerekçe uydurup açıklıyor
- Deney örneğinde hastaya mevsim resmi ve tavuk ayağı resmi sırasıyla sadece sağ/sol görsel alanda gösteriliyor; hasta sol eliyle kar küreğini, sağ eliyle tavuk kafasını seçiyor. Neden bu ikisini seçtiği sorulunca da “Tavuk ayağı tavuk kafasıyla gider, tavuk kümesini temizlemek için de kar küreği gerekir” diyor. Yarımküreler birbirinin bilgisini almadığı için mantıksız olsa bile kulağa makul gelen bir gerekçe uyduruyor. Wikipedia - Left-brain interpreter
- Anlamasa da gerekçe üretmeye ve buna inanarak açıklamayı sürdürmeye çalışma hali. İlgili video
Bir açıklama da şu olabilir: birçok insan (ben dahil) yanlışlıkla denizatı emojisi olduğunu sanıyor. Hiç görmemiş olsak bile zihnimizde görüntüsünü canlandırabiliyoruz. Bu tür yazılar eğitim verisinde yer alıyor. İlgili subreddit
- Zihnimizdeki denizatı emojisi görselinde yüzgecin yakınına doğru kıvrılan bir kuyruk da var mı diye merak ediyorum
- Emoji her zaman standartlaştırılmış değildi; eski mesajlaşma uygulamalarında denizatı “emoji”si ya da “emoticon”u bulunmuş olabilir. Bu yüzden bu anının kesinlikle yanlış olduğunu söylemek aceleci olur
- U+200D önermeyi düşündüm. Hatta gerçekliğin, insanların ve dil modellerinin beklenti ve anılarına uyacak şekilde değişmesi daha bile basit olabilir
- Bu subreddit (Mandela etkisi) beni geriyor; çünkü “hatırlıyorum, o halde neden yok diyorsun?” diyen çok fazla insan var. İnsan da aslında LLM gibi halüsinasyon gören bir canlı
- Ben de bu denizatı emojisini gerçekten gördüğüme yemin edebilirdim, ama bu kez yanılanın ben olduğunu kabul ediyorum