Bu sadece X değil, Y
(mail.cyberneticforests.com)- LLM'lerin sıkça kullandığı "It's not X, it's Y" olumsuz karşıtlık kalıbı, karşıtlık kurup mevcut varsayımları yeniden çerçevelemek için aslında yararlı bir retorik tekniktir
- Ancak son dönemde modellerin bunu aşırı kullanması nedeniyle bu kalıp kötü yazı diye damgalandı; oysa retorik araçların değeri, taşıdığı içeriğe göre değişir
- AI dedektörleri ve Grammarly gibi araçlar bu tür kalıpları ayıklayarak makinenin insan gibi yazması için insanı yeniden yazar hâle getiren bir paradoks yaratıyor
- Bu kalıbın yayılmasının nedeni olarak RLVR (doğrulanmış ödülle pekiştirmeli öğrenme) gösteriliyor; modelin doğru cevaba ulaşırken kullandığı dilin pekiştirilmesiyle bağlantılı
- Dil kalıplarının kendisini değerlendirme ölçütü yapmak, Goodhart yasasında olduğu gibi dilin iyi dil olma niteliğini yitirmesine yol açar; bu yüzden makine yargısına bel bağlamak yerine eleştirel düşünmek gerekir
Olumsuz karşıtlık kalıbı ve ona yönelik tepki
- LLM'lerin çekildiği negative parallelism (olumsuz karşıtlık) kalıbı, karşıtlık kurma işlevi görür ve özellikle "sen bunun böyle olduğunu sanıyorsun ama aslında şöyle" türü varsayımları yeniden kurarken faydalıdır
- Bu kalıp sosyal medyada, özellikle LinkedIn'de çok yaygın ve otomatik dil üretimine karşı savaş içinde tepki çekiyor
- em-dash kullanımı, delve, quietly, genuinely gibi sözcükler ve 3 maddelik listeler bot işareti olarak şüpheyle karşılanıyor
- Son modellerin bunu fazla kullanması yüzünden birçok kişi bunu kötü yazı olarak görüyor; ancak JFK'nin "Ülkenizin sizin için ne yapacağını sormayın, sizin ülkeniz için ne yapabileceğinizi sorun" sözü de aynı tekniktir ve kimse buna tembel yazı demez
- Retorik araçlar, içerdikleri şeye bağlı olarak tembel de olabilir ilham verici de
Otomatik dil üretimi ve tespit araçlarının paradoksu
- AI dedektörleri bu tür kalıpları bularak cadı avından koruduklarını iddia ediyor; ancak kendi yazınızı Grammarly'ye koyduğunuzda, AI dedektörünün işaretleyeceği sözcük kalıplarını analiz edip düzeltme önerileri sunuyor
- Bu da yazma yetkisini fiilen Grammarly'ye devretmek ve yazının ritminiyle niyetini kaybetmek anlamına geliyor
- Grammarly bir bölümde 27 ifadeyi düzeltilecek unsur olarak işaretledi
- "automated language production" ifadesini AI olma ihtimali 11 kat daha yüksek diye işaretleyip yerine "against mechanized language synthesis" önerdi
- "align with" ifadesini AI üretimi olma ihtimali 43 kat daha yüksek diye işaretleyip insanların bunun yerine "corresponds" kullandığını önerdi
- Küçük öneriler birikince ortaya, yazarın seçmediği bir metin çıkıyor; insan gibi duyulmaya çalışan makine insan sesinin yerini alıyor
- Başka bir AI tespit şirketi olan Pangram'a, makaleyi göndermeden önce AI üretimi olmadığını doğrulaması için 20 dolar ödendi
- Bunu gerçekten kendi yazmadığını öğrenmek için değil, işaretlenmeyeceğine dair bildirim almak için ödemek zorunda kalmak fiilen haraç/extortion olarak niteleniyor
- Pangram, özgünlüğü high, very likely, somewhat likely ve human olmak üzere 4 kademeli bir puanla sınıflandırıyor
Akıl yürütmeye düşman kültür ve sonradan eğitim
- Makineyi anlamaya yönelik içgüdü bizi eğitim verisine bakmaya itiyor; ama bu veri artık "sadece web" değil, web yalnızca ham madde ve ağır biçimde işleniyor
- Post-training (sonradan eğitim), modeli tasarım amacına göre optimize ediyor
- RLHF (insan geri bildirimiyle pekiştirmeli öğrenme): İnsanlar yanıtları sıralıyor ve sistem bu tür yanıtları öne çıkarıyor
- RLVR (doğrulanmış ödülle pekiştirmeli öğrenme): Daha tuhaf olan bu yöntem, "It's not X, it's Y" kalıbının sık görünmesinin nedeni olarak görülüyor
- Bu dili tembel diye geçiştirmek, neden her yerde ortaya çıktığını anlamayı zorlaştırıyor ve düşünmek için güçlü bir çerçeveyi modelin düşünme kapasitesiyle karıştırmaya yol açıyor
- Yani dilin yaptığı işi hesaplamanın başarısıymış gibi görüyoruz
RLVR nasıl çalışır
- RLVR, sözcükleri gözetleyip alt süreçleri tetikleyen bir yapı değil; genel modeller gibi eğitildikten sonra token tahmini yapıyor
- Token tahmini, eğitim verisinin matematiksel dağılımına göre aday listesi oluşturup bunları önceki sözcüklere göre olasılık sırasına koyma sürecidir
- RLVR, modelin matematik problemi çözerken çözüme giden süreci yazıyla ifade etmesini sağlayarak bizim sesli düşünürken kullandığımız dili yeniden üretiyor
- Doğru yanıta ulaşıldığında, süreç boyunca en sık kullanılan dil tamamlanmış modelde daha güçlü biçimde öne çıkıyor; sektörün reasoning (akıl yürütme) dediği şeyin bir parçası da bu
-
"Garip köpek" benzetmesi
- Telefon kapalıyken bir arkadaşın "O garip köpeği haftanın hangi günü görmüştük?" diye sorduğu bir durum veriliyor
- "Perşembeydi" → arkadaş: "Hayır, Perşembe ben iş seyahatindeydim" → "O zaman Çarşamba, arkadaşının doğum günü partisine giderken görmüştük" → arkadaş: "Doğru ama parti Cuma günüydü, demek ki Cuma görmüştük"
- İki kişi, fotoğrafla doğrulanabilecek doğru yanıta dil aracılığıyla ulaşıyor; ilk sezgi olan "Perşembe", modelin eskiden durduğu ilk tahmine karşılık geliyor
- Gerçek anıları ve deneyimleri olan bu iki kişiden farklı olarak model, dili giderek uzatarak akıl yürütmenin kalıplarını kopyalıyor; dil aracılığıyla değil, dilin içinde düşünmeyi yeniden sahneliyor
- Telefon kapalıyken bir arkadaşın "O garip köpeği haftanın hangi günü görmüştük?" diye sorduğu bir durum veriliyor
- "suppose…", "because", "consider", "alternatively", "wait" gibi high-entropy (yüksek entropili) sözcükler daha uzun, spekülatif pasajları tetikliyor
- Bunlar karşıtlık, istisna ve soyutlama çağıran bir dile açılıyor; matematik sorusunda doğru cevaba ulaşıldığında da daha sık görünmeleri pekiştiriliyor
Neden akıl yürütürüz
- "Garip köpek" gibi bir konuşmanın asıl noktası takvim tarihini saptamak değil, hatırlamayı açmak; belleği yeniden kurmak, bağlamın tadını çıkarmak ve arkadaşlar arasındaki bağı derinleştirmektir
- LLM'lerde kullanılan akıl yürütme tanımı ise sorunun amacının yanıt almak olduğunu, bu yanıtın doğrulanabilir olduğunu ve hemen sonuca gitmekle kaybedilecek bir şey olmadığını varsayar
- Bu, yazıyı gerçekten etkiliyor; dil modelleriyle düşünceyi hızla prototipleştirirken şüpheye açıklık kayboluyor
- Belirsizlik, kuşku ve kararsızlık bazı düşünme biçimlerinde anlık yanıttan daha önemlidir
- AI dedektörlerinin bir metni AI üretimi diye işaretlemesinin sebebi, metnin akıl yürütmenin yapısal kalıplarını izlemesi olabilir mi sorusu soruluyor; Pangram da reasoning modelleri de insanların yazarken ve düşünürken kullandığı yapısal kalıpları tespit ediyor
- Pangram modeli 2021 öncesi verilerle eğitildi, ardından aynı metinlerin AI tarafından üretilmiş sürümleri eğitim verisine eklendi
- Birini makine gibi göründüğü için açıkça utandırmak, insanları korkuyla "AI yazımı" diye içselleştirdikleri yapıları kaçınmaya iter ve akıl yürütmeye yarayan dilin gözetlenmesi gerektiği mesajını verir
- Sonuçta modellerin bizden öğrendiği yapıları, yani argümantasyonda etkili araçları kullanmamaya başlarız ve eleştirel düşünme araçlarını en çok ihtiyaç duyduğumuz anda bir kenara bırakırız
Ölçüm hedefe dönüştüğünde
- Birleşik Krallık'ta AI tabanlı kompozisyon değerlendirme aracı, insan değerlendiricilerle karşılaştırmalı olarak test edildi
- Sistem, kompozisyon uzunluğu, kelime dağarcığı çeşitliliği ve cümle karmaşıklığına göre yüksek puan verdi; bunların akademik ölçütlerle çoğu zaman ilgisi yoktu
- Bu özellikler, RLVR tabanlı akıl yürütmeye benzeyen AI muhakemesinin işaretleri; yani LLM'lerin, mühendislerin LLM'leri değerlendirme ölçütleriyle insanları puanlaması gibi bir durum ortaya çıkıyor
- Ekonomideki Goodhart yasası şöyle der: "Gözlenen istatistiksel bir düzenlilik, kontrol amacıyla baskı altına alındığında çökmeye eğilimlidir"; yani ölçüm hedefe dönüştüğünde artık iyi bir ölçüm olmaktan çıkar
- Bunu LLM'lere uygularsak: "Dil ölçümü hedefe dönüştüğünde, dil artık iyi dil olmaktan çıkar"
- İçerikten çok dil kalıplarını değerlendirmek tehlikelidir; hem üretim hem de tespit bunu teşvik eder, otomatik puanlama ise ikisinin arasındadır
- Akıl yürütmenin kendisini değil biçimini ödüllendirirseniz onu daha cazip ve yaygın hâle getirirsiniz; biçimi cezalandırırsanız akıl yürütmenin kendisini cezalandırma riski doğar. Bu yüzden hiçbir durumda makinenin hükmüne bırakmamalı, eleştirel düşünmeliyiz
Otomatikleştirilmiş düşünceye karşı
- "Yanlış bir şey yapmadıysan endişelenecek bir şey de yoktur" şeklindeki eski mantığa katılınmıyor
- 2018'den beri otomatik gözetim sistemlerinin doğruluğu için %99,8 rakamı veriliyor; ancak Arvind Narayanan'a göre bu oran, her kullanımda makale bazında birikiyor
- Bunun sonucu olarak üniversite öğrencilerinin %10'una kadarı yanlış biçimde suçlanabilir; tüm metinler AI denetiminden geçirilirse yanlış pozitifler çok daha büyük ölçekte ortaya çıkar
- Bu modeller gerçek yetkiyi merkezileştiriyor ve şirketler bizim yerimize akıl yürüteceklerini vaat ediyor
- İki satırlık bir ifadeyi AI yorumlayıcısına verip sonucu internete koyarak "Bakın, intihalci" demek, tehlikeli bir şeyi normalleştiriyor
- AI tespiti baskısıyla gelen yeniden yazım ve özsansür kültürü, insan ifadesini korumanın tam tersi; makinenin suçluluk hükmü verme yeteneğine duyulan güvenin normalleşmesine direnmek gerekiyor
- AI ile yazmak en kötü ihtimalle zihnin sanayileştirilmesiyse, AI tespiti de en kötü ihtimalle düşünce üzerinde bir gözetim sistemi olur
1 yorum
Lobste.rs görüşleri
Sırf bir otomatik sistem bir yazıyı AI gibi diye değerlendirdi diye makalenin otomatik elenmesi kâbus gibi olurdu; neyse ki benim işimde böyle bir sorun yok
Akıl yürütme dilinin, LLM çıktısını sadece akıcı ve ikna edici göstermekle kalmayıp en başta çalışır hâle getirmesi ya da en azından daha iyi çalıştırması noktasını beğendim. Bu tür teknikler insanlarda da işe yarıyor; bu yüzden 5 Whys analizi gibi yöntemler etkili
Öte yandan tembelce yazılmış düşük kaliteli metinlerin hâlâ tespit edilmesi gerektiğini düşünüyorum. Bunu sadece yapı ya da üslup araçlarına odaklanmadan da yapmak mümkün. Ben genelde yazıyı iyi niyetle okumaya başlıyorum; birkaç paragraf sonra da yazarın ana fikrini hâlâ kavrayamıyorsam, o noktada tipik sinyalleri aramaya başlıyorum ve oldukça sık buluyorum
İlginç bir yazı, ama pratikte bir şeyi düşünmek için kullanılan akıl yürütme metni ile, o akıl yürütme bittikten sonra aktarmak için yazılan tamamlanmış metni ayırırım
Örnekte düşünme sürecinde “Perşembe değil, Çarşambaydı” denebilir; ama birine mesaj gönderirken sadece “Perşembeydi” yazarsınız
Bu yüzden akademide ya da iş hayatında gerçek çıktı olan raporlar veya e-postalar, bir konu üzerine akıl yürütürken kullanılan dili kullanmaz; düzgün yazıldıysa da LLM gibi görünmemelidir. Taslaklar ya da kişisel notlar öyle olabilir, ama nihai gönderimler değil
Üretken AI’ı sert biçimde eleştiren biri olsam da, ana dili İngilizce olmayan araştırmacıların metnini cilalamak için akademik yazımda faydalı olabileceğini düşünüyorum
Ancak bunun için neredeyse tamamlanmış, iyi yapılandırılmış bir taslak gerekiyor; sadece madde işaretleri verirseniz halüsinasyonlar ya da sert ve yapay duran ifadeler çıkıyor
Son birkaç yılda Çin veya Hindistan gibi ülkelerden gelen çok sayıda düşük kaliteli makale değerlendirdiğim için, bu ülkelerden gelen kişilerin sık kullandığı ana dili İngilizce olmayanlara özgü İngilizce deyimlere karşı bende biraz önyargı oluştuğunu da fark ettim. Üzücü olan, değerlendirdiğim en iyi makalelerden bazılarının da bu ülkelerden gelmiş olması
Bu açıdan bakınca, İngilizce akademinin standart dili hâline gelmişken, LLM’ler yüksek dil düzeyini standartlaştırmaya ve değerlendirme sürecindeki önyargıyı azaltmaya da yardımcı olabilir
Ana dili İngilizce olmayan çok sayıda çalışanın bulunduğu kurumlarda genelde yazım danışmanları olur; bunlar sadece iyi cümle kurmakla kalmaz, daha da önemlisi yazılanların yazarın niyetiyle uyumlu olup olmadığını kontrol eder. Bunu LLM’ye bırakırsanız anlam ince biçimde kayabilir ve olgusal hatalar ya da yanlış ifade edilmiş iddialar yüzünden sonuçta yazara daha kötü sonuçlar doğurabilir
Dil desteği sunmayan kurumlar çalışanlarını dezavantajlı bir ortama itmiş olur; bağımsız araştırmacılar ise başka nedenlerle de çoğu zaman zaten daha dezavantajlı durumda
Ana dili İngilizce olmayanlara özgü ifadelere karşı bilinçsiz önyargıyı belli ölçüde önlemek zor, ama makale değerlendirmelerinde dil sorunu açıksa genelde oldukça fazla iyi niyet payı tanır, dil yüzünden belirsiz bulduğum noktaları da düzeltme notu olarak bırakırdım. Bu, kişinin kendini denetleyerek yönetmesi gereken bir şey
Yetersiz dil kullanımı fikirleri, yöntembilimi ve sonuçları bir ölçüde bulanıklaştırabilir; ama LLM’ler, gerçekten değerlendirdiğim makalelerde gördüğüm gibi, bunu olgusal olarak yanlış içerik ile bozabilir ve sonunda ya itiraz ve düzeltme gerektirir ya da makale doğrudan reddedilebilir. Bu sorunu ele almanın daha iyi yolları var; bu yüzden LLM kullanımını önermemek gerekir
Ayrıca bunun intihal sayılıp sayılmadığı da hâlâ açık bir soru. Çok daha büyük bir tartışma bu ve temel olgular üzerinde bile çoğu zaman uzlaşma yok. Bazı konferanslar ya da dergiler bu yüzden LLM desteğini yasaklıyor; bu kurallara da saygı göstermek gerekir
İronik biçimde şirketler bu histeriyi gelir modeline çevirmek için hiç vakit kaybetmedi; LLM kullanarak bir metnin gerçekten insan tarafından yazılıp yazılmadığını değerlendirmeden para kazanıyor ve neyin kabul edilebilir yazım olduğuna karar veren hakemlere dönüşüyorlar
İnsanlar tembelce sadece üsluba bakmak yerine içeriğe gerçekten eğilmeye başlarsa, yazarın da belirttiği gibi bu sorunun tamamı ortadan kalkar