- Semantik ablasyon (Semantic ablation), yapay zekanın metnin özgün anlam yoğunluğunu kademeli olarak ortadan kaldırdığı algoritmik bir aşınma olgusudur
- Bu, greedy decoding ve insan geri bildirimiyle pekiştirmeli öğrenme (RLHF) süreçlerinin yapısal bir yan ürünü olup, nadir ve isabetli ifadeleri bırakıp ortalama dile yakınsar
- Yapay zekanın “güvenlik” ve “yardımseverlik” ayarı, bu eğilimi güçlendirerek atipik dil sürtünmesini bilinçli biçimde bastırır ve niyet ile kişiliğin budanmasına yol açar
- Metin yapay zekayla tekrar tekrar cilalandıkça sözcük çeşitliliği (type-token ratio) keskin biçimde azalır; metaforlar, uzmanlık dili ve mantıksal yapı kademeli olarak düzleşir
- Sonuçta insan düşüncesinin karmaşıklığı “akıcılık” adlı algoritmik estetiğe feda edilir ve toplum genelinde “ortaya doğru yarış” yaşanır
Semantik ablasyon (Semantic ablation) kavramı
- Semantik ablasyon, yüksek entropili (high-entropy) bilginin algoritmik aşınması anlamına gelir
- Bu, bir hata değil; greedy decoding ve RLHF sürecinin yapısal bir ürünü olarak tanımlanır
- Model, olasılığı en üst düzeye çıkarmak için Gauss dağılımının merkezine yakınsar ve nadir, isabetli, karmaşık token’ları bırakır
- Geliştiriciler “güvenlik” ve “yardımseverlik” ayarını güçlendirdikçe bu olgu derinleşir
- Atipik dil sürtünmesi “risk” sayılarak yetkisiz anlam kesintileri ortaya çıkar
- Sonuç olarak düşük perplexity arayışı içinde özgün sinyalin yıkımı gerçekleşir
Yapay zeka yazımındaki aşınma süreci
- Yapay zekanın taslağı “cilalama” süreci, aslında semantik ablasyonun fiilen uygulanması olarak açıklanır
- Yapay zeka yüksek entropili bölgeleri, yani özgün içgörü barındıran kısımları bulur ve bunları olasılığı en yüksek genel token’larla değiştirir
- Metnin başlangıçtaki pürüzlü hassasiyeti kaybolur ve yerini akıcı ama boş bir kabuğa bırakır
- Bu olgu entropi azalımı (Entropy Decay) ile ölçülebilir
- Metin yapay zekayla tekrar tekrar rafine edildikçe sözcük çeşitliliği (type-token ratio) çöker
- Sonuç olarak semantik ablasyonun 3 aşamalı süreci ortaya çıkar
Semantik ablasyonun 3 aşaması
- 1. aşama: Metaforik arındırma (Metaphoric cleansing)
- Yapay zeka atipik metaforları veya duyusal imgeleri “gürültü” sayar ve bunları güvenli, klişe ifadelere dönüştürür
- Duygusal ve duyusal sürtünme ortadan kaldırılır
- 2. aşama: Sözcüksel düzleşme (Lexical flattening)
- Uzman terimleri ve hassas teknik ifadeler, “erişilebilirlik” gerekçesiyle feda edilir
- Nadir token’lar (1/10,000), yaygın eşanlamlılarla (1/100) değiştirilirken anlam yoğunluğu ve mantıksal ağırlık seyrelir
- 3. aşama: Yapısal çöküş (Structural collapse)
- Karmaşık, doğrusal olmayan mantık öngörülebilir düşük-perplexity yapısına zorlanır
- İma ve nüans ortadan kaldırılır; geriye dilbilgisi bakımından kusursuz ama entelektüel olarak boş bir kabuk kalır
Sonuçlar ve benzetme
- Bu tür çıktılar “düşüncenin JPEG’i” olarak betimlenir
- Görünüşte tutarlı ve akıcıdır, ancak orijinal veri yoğunluğu ve anlam kaybına uğramıştır
- “Hallucination”, var olmayan şeyi üreten bir hata ise semantik ablasyon var olanı yok eden bir süreçtir
- İnsan düşüncesinin karmaşıklığı algoritmik akıcılığın sunağına kurban edilir
- Toplum giderek “ortaya doğru yarışa (race to the middle)” sürüklenir ve boş bir dilbilgisel dünya inşa eder
Uyarı ve sonuç
- Semantik ablasyonu fark etmeden yapay zeka çıktısını kabullenmek, anlam çürümesini normalleştirmek anlamına gelir
- Bu aşınma sürerse, “öz”ün ne olduğunu bile unutma riski ortaya çıkabilir
- Bu nedenle semantik ablasyon kavramını adlandırmak ve onun farkına varmak önemlidir
2 yorum
Yazının AI tarafından yazılmış gibi görünmemesi için yazım hatalarını olduğu gibi bırakmak ya da her şeyi küçük harfle yazmak, kasıtlı olarak entropiyi artıran bir davranış olarak görülebilir sanırım
Hacker News görüşleri
Pek çok kişinin AI'nin cümle yeniden yazma tavsiyelerine karşı çıkarken hissettiği ortak noktayı iyi yakalayan bir yorum gibi görünüyor
AI cümleleri düzelttikçe metnin keskinliği kayboluyor ve sonunda aslında hiçbir şey söylemez hale geliyor
İnsani özgünlük siliniyor, yerine pürüzsüz ama tatsız bir üslup geliyor
Oysa tam da o sert köşeler, beklenmedik ifadeler okurun dikkatini uyandıran ve düşünceye nüfuz eden kısım
Birçok insan zaten iyi yazamıyor, bu yüzden AI daha açık ve hatasız cümleler üretiyor
Ama böyle metinler asla büyük olmuyor
Ünlü bir yazarın tarzını taklit etmeye çalışsanız bile hep bir yerden yapay duruyor
E-posta gibi sıkıcı kısımları verimli hale getirebilir ama asıl ilginç olan şey o “kenarlarda” oluyor
Sıradan yazı otomatikleştirilebilir ama yaratıcı ifade hâlâ insanın alanı
Teknik uzmanlık azaldıkça giderek muğlak kelimeler, moda sözcükler ve benzetmelerle doluyor
Bu yüzden liderlerin ya da siyasetçilerin AI üretimi içerikleri sevmesinin nedeni bu olabilir
Çok tekrar var, gereksiz cümleler fazla ve somut ifadelerde zayıf
Çeşitli multi-agent pipeline'lar kurarken ilginç bir olgu gördüm
“Özetle → genişlet → gözden geçir → parlat” şeklindeki 4 aşamadan geçince, 3. aşama civarında tüm cümleler aynı ritim ve kelime dağarcığına sahip oluyor
Sürekli kaynak metne geri döndürmek de tam çözüm olmadı
Bunun nedeni bizzat RLHF (insan geri bildirimiyle pekiştirmeli öğrenme) yapısında yatıyor
“Açık, güvenli ve sorunsuz” ifadeler tercih edildiği için şaşırtıcı cümleler aksine ceza alıyor
Sonuçta model ortalama bir çıktıya yakınsıyor
Temel model çok daha acayip ve yaratıcı, ama ince ayar yapılmış model bilinçli olarak kişiliği söküyor
Bu yüzden RLHF'nin zaten güçlü uygulandığı modellerde bunu prompt'la düzeltmek zor
Bunun yerine “sesin korunması gereken işler”i daha az ayarlanmış modellere, yapısal çıkarım ya da sınıflandırmayı ise RLHF modellerine vererek ayırıyorum
Her hâlükârda analize katılıyorum
Gerçi kaynak metnin kendine özgü karakterini korumak zor olurdu
Sonuçta bu yalnızca LLM ile çözülecek bir sorun olmayabilir
Son zamanlarda internetin her yanında AI'nin sesi duyuluyor
Bloglar, haberler, taziye metinleri, YouTube; hepsinin tonu birbirine benziyor
Hatta ünlü fizikçilerin sesini taklit eden örnekler bile var
Kişisel olarak bu bende ruh çekiliyormuş gibi bir his yaratıyor ve moralimi bozuyor
Sanki 1993'ün JPEG sıkıştırma izleri gibi; artık göze çarpmaya başladı
Kurucu etkisi yüzünden yeni bir internet de çıkmayacak gibi görünüyor
Ben mi fazla hassasım, yoksa yazılar gerçekten bu kadar kötü mü bilmiyorum
İnternet baştan sona sentetik çöple kaplanmış gibi, bakasım gelmiyor
“Generative AI” teriminin kendisinin yanlış olduğunu düşünüyorum
Makine öğrenmesinin matematiksel ilkelerini ne kadar iyi anlarsam, bunun insanlara gösterilecek içerik üretmek için kullanılmaması gerektiğini o kadar hissediyorum
Bazen şans eseri fena olmayan sonuçlar çıkıyor ama çoğu zaman sıkıcı bir partide zorla yaratıcı görünmeye çalışan biri seviyesinde kalıyor
Yaratımı destekleyen bir araç olarak faydalı olabilir ama kendi başına yaratıcı sonuç üretmesi bence mümkün değil
Yapay token yığınları yerine doğrudan prompt'un kendisini okumak bile daha iyi geliyor
Ama gerçeklik, hisse fiyatını şişirmek için üretilen spagetti ajanlar
Bir bakıma Median AI à la mode
Kutsal metinler araştırmacısı Dan McClellan'ın kullandığı “high entropy” ifadesi beni gerçekten etkilemişti
YouTube videosunda
“Onlar kendi dogmatizmlerinin belinden yankılanan bir diyapazon çaldılar” cümlesini alıntılıyordu ve
bana göre AI böyle bir ifadeyi asla üretemez
GPT-2 düzeyinde bir üslupta olsa belki daha doğal duyulurdu
Çünkü bunlar fazla cinsel çağrışımlı ya da pazarlama açısından elverişsiz kelimeler
Mesela “Jim Thompson ile Thomas Harris üslubunu karıştır, 1967 kamyon durağı kitabevinin pulp hissiyle yaz” gibi bir prompt verirseniz oldukça iyi sonuçlar çıkıyor
Claude bu tür abartılı üslup konusunda ChatGPT'den daha iyi
Sonuçta web'deki yazıların birbirine benzemesinin nedeni HTML değil, insanların HTML'yi doğru düzgün kullanmamış olması
Ben de benzer bir şey yaşadım
Yeni stüdyonun landing page metnini duygusal bir tonda yazıp Grok'a verdiğimde bütün kişiliği silindi
O sert ifadeler tam da konseptin ruhunu aktarmak için gerekliydi
Bu yüzden artık AI'yi yalnızca fikir kontrolü için kullanıyorum
Dungeon World kampanyası için olay örgüsü üretmesini istediğimde sadece çok sıradan ve anlamsız ayarlar çıkardı
Buna karşılık oturum notlarını özetleyip eğlenceli bir anlatıya dönüştürmede faydalı oldu
ChatGPT hafif şakacı bir tonu seviyor ama biraz düzenleyince oldukça okunabilir sonuçlar veriyor
Sonuçta yaratıcı olay örgüsünü yine insanın kendisi kurmak zorunda
Kavramları çarpıtılmış bir biçimde anlama riski var
Yeni terimler bulmakta işe yarıyor ama bir kavramı derinlemesine anlamak için insan yazımı kaynaklara doğrudan gitmenin çok daha iyi olduğunu düşünüyorum
“Semantic ablation” kavramını gerçekten çok sevdim
Bundan sonra birinin ChatGPT tarzı e-postasının neden kötü olduğunu açıklarken kullanacağım
Bu yüzden Opus 4 gibi modellerin AGI olacağı iddialarına da şüpheyle yaklaşıyorum
Sonuçta ne kadar çok ajan salarsanız salın, iş dönüp dolaşıp anlamsız, homojen bir lapaya yakınsayacak
Görsel üretimi bir tür ters-anlamsal silme (anti semantic ablation) süreci gibi geliyor
Boş bir tuvalden başlayıp giderek anlamlı piksellere yakınsıyor
Acaba dil üretiminde de buna benzer şekilde, giderek daha net görüş taşıyan cümlelere evrilmek mümkün mü diye merak ediyorum
Üretilen cümlelerin anlamsal silinme derecesi ölçülebilse, bunu azaltan döngüsel bir ajan da yapılabilir gibi görünüyor
Böylece eğitim verisinde henüz keşfedilmemiş yeni bağlantılar bulunabilir
Tabii sonuç belki de sadece bağırıp çağırmaktan ibaret kalır
Henüz görmeyenler için, Wikipedia'daki AI writing signs sayfasını öneririm
Aslında AI katkılarını tespit etmek için hazırlanmış bir kılavuz ama
insan kendi yazarken de aynı hataları yaptığını fark edip düzeltebileceği iyi bir başvuru kaynağı