LLM'lerin Yazı Dilimizi Çarpıtma Biçimi
(sites.google.com)- LLM'ler yazma yardımında verimliliği artırsa da, insan yazılarını düzenlerken sonuçları, tutumu ve argüman türlerini değiştiriyor; ayrıca insan editörlerden farklı yönde anlam kaymaları yaratıyor
- Kullanıcı araştırmasında LLM'leri yoğun kullanan kişiler sonuçtan memnun olduklarını söylerken, kendi seslerinin ve yaratıcılıklarının istatistiksel olarak anlamlı biçimde azaldığını da belirterek bir tercih paradoksu sergiliyor
- ArgRewrite-v2'de insan tarafından yazılmış 86 makale, üç LLM (gpt-5-mini, gemini-2.5-flash, claude-haiku) ile düzenlendiğinde, yalnızca asgari düzenleme ya da dilbilgisi düzeltmesi talimatıyla bile sözcük dağarcığı ve anlam büyük ölçüde değişiyor
- LLM tarafından yazılan ya da düzeltilen metinler daha resmî ve kişisel olmayan bir üsluba kayarken, isimler, sıfatlar ve duygusal, mantıksal, istatistiksel dil artıyor; zamirler ve kişisel deneyime dayalı argümanlar azalıyor
- ICLR 2026 hakem değerlendirmelerinden 18 bin incelemenin analizinde, AI üretimi olarak sınıflandırılan değerlendirmeler toplamın %21'ini oluşturdu; bunlar insan değerlendirmelerine kıyasla puanları %10 daha yüksek veriyor ve yeniden üretilebilirlik ile ölçeklenebilirliğe daha fazla odaklanıyor
Araştırmaya genel bakış
- LLM'ler dünya çapında 1 milyardan fazla kişi tarafından kullanılıyor ve en yaygın kullanım alanı yazma yardımı
- LLM'ler büyük verimlilik artışları sağlayabilse de, kullanıcıların gerçekten istedikleri metni yazıp yazmadıkları sorgulanıyor
- Pek çok kullanıcı LLM üslubunun “hissini” fark etse de, LLM'lerin metnin anlamını ne ölçüde çarpıttığını tam olarak fark etmiyor
- Analiz üç tür materyali kapsıyor
- insan kullanıcı araştırması
- insanlar tarafından yazılmış argümantatif makale veri kümesi
- önde gelen makine öğrenimi konferanslarındaki değerlendirmeler
- Araştırma materyalleri Paper ve Code olarak sunuluyor
Başlıca bulgular
- LLM'ler metinlerin sonuçlarını değiştiriyor; bununla birlikte tutum ve argüman türü de değişiyor
- Kullanıcılar sonuçtan memnun olduklarını söylerken, kendi seslerinin ve yaratıcılıklarının istatistiksel olarak anlamlı biçimde azaldığını belirterek bir tercih paradoksu sergiliyor
- LLM'ler yalnızca basit dilbilgisi düzeltmesi istendiğinde bile insan editörlerden daha büyük anlam kaymaları yaratıyor
- Etki, 2026 International Conference of Learning Representations (ICLR) değerlendirmelerinde de görülüyor
- AI üretimi olarak sınıflandırılan hakem değerlendirmeleri toplamın %21'ini oluşturdu
- Bu değerlendirmeler, makalenin kabulü ya da reddi gerekçelerinde insan değerlendirmelerinden anlamlı ölçüde farklı bilimsel ölçütlere odaklandı
- LLM'ler topluma daha fazla entegre oldukça, bu ince anlam kaymaları siyaseti, kültürü, bilimi ve hatta arkadaşlar ile aile arasındaki iletişimi değiştirebilir
- Araştırma argümantatif yazıya odaklansa da, sonuçlar diğer yazı ve iletişim biçimlerine de genellenebilir
LLM düzenlemeleri, metni insan düzenlemelerinden farklı bir yöne taşıyor
- LLM'ler insan metinlerini düzenlediğinde, aynı makale bir insan tarafından düzenlendiğinde görülenden çok farklı, homojenleştirilmiş değişimler ortaya çıkıyor
- Karşıolgusal analiz, bir metnin LLM tarafından düzenlenmiş sonucu ile insan tarafından düzenlenmiş olası sonucunu karşılaştırıyor
- İnsan düzenlemelerinde
- ilk taslak açık gri noktalarla gösteriliyor
- uzman geri bildirimi sonrası ikinci taslak koyu gri noktalarla gösteriliyor
- değişim, MiniLM-L6 anlam gömme uzayının PCA'ye yansıtılmasıyla görselleştiriliyor
- LLM düzenlemelerinde
- başlangıçtaki insan yazımı makaleye uzman geri bildirimi ve çeşitli istemler veriliyor
- yalnızca asgari düzenleme istendiğinde bile tüm makalelerde büyük değişimler oluşuyor
- değişimin yönü, insan yazım biçiminden uzaklaşıp tutarlı bir doğrultuda ilerliyor
- ArgRewrite-v2 veri kümesindeki örnekler, LLM ile yazmanın makalenin sonucunu nasıl değiştirdiğini ve insan sesini nasıl ortadan kaldırdığını gösteriyor
Yöntem ve veri kümeleri
-
İnsan kullanıcı araştırması
- LLM kullanımının yazma süreci üzerindeki etkisini anlamak için bir kullanıcı araştırması yürütüldü
- 55 kişinin LLM kullanma imkânı vardı, 45 kişinin ise LLM erişimi yoktu
- Oturum sırasında birçok kullanıcı LLM kullanmaktan gönüllü olarak kaçındığı için, sonuçlar gerçek kullanım tercihine göre koşullandırıldı
- Katılımcılar iki gruba ayrıldı
- LLM-Influenced: LLM kullanmayan ya da yalnızca bilgi arama amacıyla kullanan kişiler
- LLM: LLM'yi kapsamlı biçimde kullanan kişiler
- Grup ayrımı, değerlendirme ve analizden önce önceden yapıldı
- Bu ayrımda konuşma kayıtları, son makale ve öz bildirim kullanım puanları kullanıldı
-
ArgRewrite-v2
- 2021'de toplanmış, insanlar tarafından yazılmış 86 makale kullanıldı
- Bu veriler, LLM'ler yaygın biçimde kamuya açılmadan önce yazılmış metinlerden oluşuyor
- Makaleleri düzenlemek için üç üretim LLM'ine istem verildi
- gpt-5-mini
- gemini-2.5-flash
- claude-haiku
- Beş tür düzenleme uygulandı
- genel düzenleme
- asgari düzenleme
- dilbilgisi düzeltmesi
- tamamlama
- genişletme
- LLM üretimi taslaklarla insan yazımı revizyonlar çeşitli boyutlarda karşılaştırıldı
- anlam
- sözcük kullanımı
- sözcük türü dağılımı
- duygusal ton
- üslup özellikleri
-
ICLR 2026 değerlendirme analizi
- ICLR 2026'daki 18 bin hakem değerlendirmesi analiz edildi
- Tamamen insan tarafından yazılmış bir değerlendirme ile tamamen LLM tarafından üretilmiş bir değerlendirme içeren makaleler seçildi
- Her değerlendirmenin atıf yaptığı güçlü ve zayıf yönleri belirlemek için LLM-as-a-Judge sınıflandırıcısı kullanıldı
- İnsanlar ve LLM'lerin verdiği puanlar karşılaştırıldı
Kullanıcı memnuniyeti ile ses kaybı paradoksu
- LLM'leri yoğun kullanan kullanıcılar, kendi makalelerinin kendi seslerini yansıtmadığını söyledi
- Aynı anda sonuçtan memnun olduklarını da belirterek bir tercih paradoksu ortaya koydular
- Kullanıcılar memnuniyet ifade ederken, yaratıcılık ve seste anlamlı düşüşler de bildirdi
- RLHF tercihleri optimize etse de, yaratıcılığı ve anlamı korumak için yeterli değil
Anlam uzayında görülen ortak yönlü kayma
- Kontrol grubundaki insan yazımı makaleler gömme uzayı boyunca geniş biçimde dağılmış durumda
- Bu dağılım, bireysel bakış açıları, yazım stilleri ve argümantasyon biçimlerindeki çeşitliliği yansıtıyor
- LLM tarafından yazılmış makaleler, insan yazımı makalelerin kaplamadığı bölgelerde yoğun biçimde kümeleniyor
- LLM düzenlemeleri büyük anlam değişimleri yaratıyor ve bu değişimlerin yönü de güçlü biçimde ortaklaşıyor
- LLM revizyonları, daha önce hiçbir insan yazımı makalenin yer almadığı uzay bölgelerine kayıyor
- Bu da LLM'lerin anlamı insan editörlerden farklı biçimde kaydırdığına işaret ediyor
Sonuç ve tutum değişimi
- LLM kullanıcıları “Para mutluluğa yol açar mı?” sorusuna daha nötr makalelerle yanıt veriyor
- Bu makaleler net bir tutum almaktan kaçınma eğilimi gösteriyor
- Bu durum, argümanın tutumunun kendisinin değiştiği köklü bir dönüşüm olarak ortaya çıkıyor
Sözcük dağarcığı ve dilbilgisi değişimleri
- LLM düzenlemeleri, kullanılan sözcükleri insan düzenlemelerine göre çok daha fazla değiştiriyor
- Her yazarın kendine özgü sözcüksel izi, LLM'nin tercih ettiği sözcüklerle örtülüyor
- LLM'ler daha resmî bir üslup benimsiyor
- Sözcük türü dağılımında da değişim görülüyor
- isim ve sıfat kullanımı artıyor
- zamir kullanımı azalıyor
- Zamirlerdeki azalma, birinci tekil şahıs ve deneyime dayalı argümanların gerilediğini, daha kişisel olmayan bir dile geçildiğini gösteren bir işaret olarak yorumlanıyor
Duygusal, analitik, mantıksal ve istatistiksel dilde artış
- LLM destekli yazım, duygusal dili artırıyor
- İnsan düzenlemeleri ile LLM düzenlemeleri karşılaştırıldığında, hem olumlu hem olumsuz duygu dilinde kayda değer artış görülüyor
- Bu artış, asgari düzenleme ve uzman geri bildirimi talimatı verildiğinde bile ortaya çıkıyor
- LIWC analizinde, ArgRewrite-v2'nin LLM tarafından düzenlenmiş metinlerinde daha resmî, mantıksal ve hiyerarşik düşünme kalıplarını gösteren dilin arttığı görülüyor
- Kullanıcı araştırmasında insanlar kişisel deneyimlerle ilişkili argümanları daha fazla kullandı
- LLM ile yazılan makaleler istatistiksel ve mantıksal argümanları daha fazla kullandı
- LLM etkisindeki makaleler uzman görüşlerine de atıf yapıyor; bu, insan yazımı makalelerde nadir görülen bir özellik
Bilimsel kurumlarda değerlendirme ölçütlerinin çarpılması
- Bilimsel değerlendirme sürecinde LLM kullanıldığında, LLM'ler insanlardan %10 daha yüksek puan veriyor
- İnsan ve LLM değerlendirmeleri, neyin güçlü ya da zayıf yön sayıldığı konusunda farklılaşıyor
- İnsan değerlendirmeleri şu başlıkları daha sık ele alıyor
- açıklığı güçlü yön olarak ele alma olasılığı %32 daha yüksek
- açıklığı zayıf yön olarak ele alma olasılığı %58 daha yüksek
- araştırmanın ilgililiğini ele alma olasılığı %32 daha yüksek
- LLM değerlendirmeleri ise şu başlıklara daha sık odaklanıyor
- yeniden üretilebilirliği ele alma olasılığı %136 daha yüksek
- ölçeklenebilirliği ele alma olasılığı %84 daha yüksek
- İnsanlarla LLM'ler arasındaki değerlendirme ölçütü farkı, hangi bilimsel çalışmaların geçerli kabul edilip teşvik edileceğini etkileyebilir
Sonuç
- Bulgular, AI'nin yazı dilini ve kültürel kurumları ince biçimde çarpıttığını gösteren sorunlu bir tablo ortaya koyuyor
- AI üretimi içerik zaten pek çok alana sızmış durumda
- meclis konuşmaları
- şarkı sözleri
- film senaryoları
- konuşma dili
- iş arkadaşlarına ve sevilen kişilere gönderilen mesajlar
- AI'ye yoğun biçimde dayanan kişiler, AI'nin kendi seslerini ve yaratıcılıklarını azalttığını fark etmelerine rağmen sonuçtan yine de memnun kalıyor
- Kullanım kolaylığı ve kişisel kariyeri hızlandırma ihtimali, insanların AI üretimi metinler oluşturmaya devam etmesini büyük olasılıkla teşvik edecek
- ICLR verisinin gösterdiği gibi, profesyonel bağlamlarda AI üretimi metinleri kendi yazısıymış gibi sunma teşviki de sürmeye devam edebilir
1 yorum
Lobste.rs görüşleri
Bu gerçekten rahatsız edecek kadar disturbing. Özellikle de LLM'in otonom araçlarla ilgili bir argümanı değiştirip başka bir şeye dönüştürdüğü örnek epey sarsıcı
LLM'in nötr bir tavır alması hiç şaşırtıcı değil. Ana akım LLM ürünlerinin temel hedefinin esasen “bilinen” gerçeği söylemek, kullanıcıya yardımcı olmak ve bunun dışında da muğlak biçimde orta bir pozisyon almak olduğunu düşünüyorum
İnsanların değerli bir metin yazmak ya da düzenlemek için LLM'lere başvurmasını gerçekten anlayamıyorum
“Rahatsız edici” ifadesi tam oturuyor
LLM'leri bu yönde eğitmenin neden kötü görüldüğünü anlamıyorum
Sayfa benim ortamımda tutarlı biçimde düzgün yüklenmiyor. Bir ön baskı var
Sıklık grafiği ağzı açık bırakacak türden ve dürüst olmak gerekirse tam da beklediğim şeye neredeyse birebir benziyor
Bunu bir hediye gibi görebilirsiniz. Soldakiler artık güçlü kelimeler hâline gelenler, sağdakiler ise giderek anlamsız kelimelere dönüşenler
Claude'u bir redaktör olarak kullanmaya çalıştığımda bunu çok gördüm. Onu sadece imla, dilbilgisi ve noktalamaya odaklatmak için prompt'u birkaç kez yeniden yazmam gerekti
Anlamın değişme eğilimi muhtemelen embedding'lerin çalışma biçimiyle ilgilidir
Kullanıcının sahip olduğu özerklik ve sorumluluk, AI/LLM etrafındaki birçok tartışmada tuhaf biçimde eksik kalıyor
Kullanıcıların yetişkin olduğu varsayılırsa, LLM kullanmak aktif bir tercihtir. Çıktıyı kullanıp kullanmamaya ve nasıl kullanacağına kendileri karar verebilir
Eğer yapay zeka siyaseti, kültürü, bilimi, hatta arkadaşlar ve aileyle iletişim kurma biçimini bile “temelden değiştiriyorsa”, bunun nedeni insanların bunu yapmayı seçmiş olması ve yapay zekanın bu seçimi kolaylaştırmasıdır
Kullanıcının belirli görüşleri ya da tercihleri olmaması, ortada bir seçim yapılmış olduğu gerçeğini ortadan kaldırmaz