- LLM araştırmalarındaki antropomorfizm değerlendirmeleri, model çıktısına insan benzeri özellikler atfedildiğinde veya varsayıldığında, ölçüm ölçütü olmadan yorumun ifade biçimine bağlı kalabileceği sorununu gündeme getiriyor
- Age of Empires II içinde basit bir sinir ağının uygulanıp eğitildiği örnek, yeterince güçlü bir substratın LLM ile eşdeğer bir varlığı gerçekleştirebileceğine dair bir dayanak sunuyor
- Prompt ile çıktı arasındaki eşleşme gibi bazı özellikler korunabilse de, algılanan davranışın yorumu ya da de-antropomorfizasyon niteliğinin substrata göre değişebileceği savunuluyor
- Genelleştirilmiş antropomorfik özelliklerin varlığını ya da yokluğunu önceden varsayarak deney kurmak, sonucun döngüsel ya da bilgi değeri düşük olmasına yol açıyor
- Ampirik tartışma için açık ölçüm ölçütleri ve substratlar arasında neyin genelleneceğinin ilan edilmesi gerekiyor; varsayılan yaklaşım ise LLM'ye özgü olmama kabulü
Özet
- LLM'ler ve LLM tabanlı ajan iş akışları üzerine çok sayıda araştırma olsa da, bazı çalışmalar ahlak ya da doğal dil anlama gibi genelleştirilmiş antropomorfik özelliklerin ortaya çıktığını öne sürüyor, bu özellikleri atfediyor ya da bunları varsayıyor
- Ana amaç, LLM'lerde bu tür özelliklerin bulunup bulunmadığını savunmak ya da reddetmek değil; bu tür sonuçların yanlış olabileceğini göstermek
- Age of Empires II içinde basit bir sinir ağı oluşturulup eğitildikten sonra, LEGO ya da Greater Boston Area gibi yeterince güçlü herhangi bir substrattaki herhangi bir varlığın da bu tür özellikleri gösterebileceği ortaya konuyor
- LLM'lerin antropomorfik özellikleri ampirik olarak onlara özgü değil; promptlara yanıt verme gibi bazı özellikler sabit kalabilse de, algılanan davranışın yorumu gibi diğer özellikler substrata göre değişebiliyor
- Deneye dayalı tartışmalar açık ölçüm ölçütleri gerektiriyor; aksi halde yorum, ifade biçimine bırakılmış oluyor
- Substrattan bağımsız genelleştirilmiş özelliklerin varlığını ya da yokluğunu varsaymak, deneycinin bakış açısından bağımsız olarak döngüsel ya da bilgi değeri düşük sonuçlara yol açıyor
- Varsayılan kabul, antropomorfik özellikleri önceden varsayarak deney kurmak yerine LLM'ye özgü olmamayı esas alan bir
nullvarsayımı - Age of Empires II'nin işlevsel olarak tam ve Turing-complete olduğu kanıtlanıyor
Giriş
- LLM'ler görece yeni bir teknoloji olsa da yaygın biçimde kullanılıyor ve aynı zamanda yeterince anlaşılmış değil
- LLM'lerin yetenekleri ve iletişim kabiliyeti gibi görünürde insani nitelikleri, insanların onları antropomorfize etmesine yol açıyor
- ELIZA gibi ikna edici diyalog sistemleri yarım yüzyılı aşkın süredir var olsa da, LLM tabanlı sohbet botları tanıdık bir başlangıç noktasından açıklama gerektiren benzeri görülmemiş yeteneklere sahip varlıklar
- Bu arka plan içinde zihin kuramı, öğrenme ve anlama, psikoloji gibi alanlarda değerlendirmeler yapıldı ve sonuçlar çeşitlilik gösterdi
- Bazı araştırmalar kaygı ya da ahlak gibi kapsamlı insan benzeri özellikleri LLM'lerde test ediyor ve bunları LLM'lere atfederek LLM'leri deneyin merkezine yerleştiriyor
- Değerlendirme sonuçları olumlu da olsa olumsuz da olsa, LLM'lerin antropomorfik özelliklere sahip olduğu yönündeki temel varsayım; test seti tasarımını, doğal dil çıktısının yorumunu ve hatta sıfır hipotezini etkiliyor
- Bu tür varsayımlar sonuca doğrudan etki edebiliyor ve sonucu çarpıtabiliyor
- LLM araştırmalarında genel antropomorfik özelliklerin varlığını ya da yokluğunu ölçümün bir parçası olarak varsaymak, temelden kusurlu bir yaklaşım
Age of Empires II ve substrat-a özgü olmama
- Age of Empires II içinde bir sinir ağını uygulayıp eğitmek, LLM antropomorfizmiyle ilgisiz eğlenceli bir alıştırma gibi görünebilir
- Ancak bu uygulama, yeterince güçlü bir substrat varsa LLM ile eşdeğer bir varlığın gerçekleştirilebileceğini ve böyle bir gerçekleştirimin LLM'nin temsil biçimini değiştirerek algılanan özellikleri etkileyebileceğini doğrudan ima ediyor
- Eğer LLM'ler antropomorfik özellikleri belli ölçüde taklit etmekte yeterince etkiliyse, bu taklit ya da bakış açısına göre gerçek antropomorfik davranış, bilgisayar içindeki LLM adlı varlığa özgü değildir
- LLM'ler özgül değildir; farklı substratlardaki uygulamalar prompt-çıktı eşlemesi gibi bazı özellikleri koruyabilir, ancak de-antropomorfizasyon niteliğini korumayabilir
- Bunun sonucunda bu tür niteliklere dair algı ve yorum da değişir
- Ampirik gözleme dayalı tartışmalar, açık ölçüm ölçütleri ve hangi yönlerin substratları aşarak genellenmesi gerektiğine dair açık bir beyan gerektirir
Varsayım sorunu ve null varsayımı
- Bir bilim insanı hesaplamacı zihin kuramı gibi bir çerçeveyi yorumlayıcı bir duruş olarak benimser ve söz konusu özelliğin substrattan bağımsız şekilde sistemde var olabileceğini düşünürse, sonuç sağlıksız hale gelir
- Böyle bir çerçeveyi kabul ederek antropomorfik özellikler hakkında genelleştirilmiş ya da genelleştirilmemiş iddialar üretildiğinde, sonuç döngüsel ya da bilgi değeri düşük olur
- Aynı sonuç, bu çerçeve reddedildiğinde de geçerlidir
- Genelleştirilmiş antropomorfik özelliklerin varlığını ya da yokluğunu kanıtlamak veya çürütmek için, önce bu özelliklerin varlığını ya da yokluğunu varsayan hipotezleri test etmek kusurludur
- Bu tür deneylerden çıkan olumlu ya da olumsuz sonuçlar, ilgili iddiayı desteklemez
- Sorun; çerçevenin geçerliliğinden, kabul edilip edilmemesinden ve hangi çerçevenin seçildiğinden bağımsızdır
- Bu tür varsayımlar her zaman açık biçimde görünmeyebilir; örneğin LLM'lerin olgusal olarak “kendini açıklama” yetisine sahip olmadığını söyleyen bir makale, zaten belli ölçüde öz-farkındalık varsaymaktadır
- Eğer genellenebilirlik iddiası ileri sürülmeden bu tür varsayımlar yapılmazsa, ilgili özellik yaklaşık olarak gerçeğe sadık biçimde ölçülebilir
nullvarsayımı, sistem içinde antropomorfik özelliklerin varlığı ya da yokluğu hakkında hiçbir şey söylemeyerek LLM'ye özgü olmama durumunu yansıtır
1.1 Katkılar
- Amaç, LLM'lerde antropomorfik özelliklerin var olup olmadığını, zihin kuramının geçerliliğini ya da yapay zeka ile bağlantılı bilinç ve zihin-beden problemlerinin sonuçlarını tartışmak değildir
- Antropomorfik özelliklerin varlığına dair tartışmalar iyi tanımlanmış ölçümler gerektirir; bilinç ya da zihin-beden problemiyle ilgili olarak ise geniş kabul görmüş deney protokolleri veya ekoller yoktur
- Çalışan bir Age of Empires II tabanlı LLM sunmak da kapsam dışıdır
- Asıl amaç, LLM antropomorfizmiyle ilgili varsayımların ve sonuçların doğruluğu üzerine tartışmayı teşvik etmektir
- Özellikle, bu tür sonuçları desteklediği öne sürülen deneysel bulguların, söz konusu özelliklerin varlığı ya da yokluğu varsayımından türemesi temel odak noktasıdır
- Olası itirazlar ve yanıtlar, antropomorfizmle ilgili alanlara dair küçük bir meta inceleme ve Age of Empires II'nin işlevsel tamlığı ile Turing-completeness kanıtı da yer alıyor
- Nihai amaç, zihin ile makine arasındaki ilişkiye dair hangi görüş benimsenirse benimsensin, LLM'lerde antropomorfik özelliklerin varlığını ikna edici biçimde destekleyen ya da çürüten titiz deneyler kurmaya yönelik ipuçları sunmak
1 yorum
Lobste.rs görüşleri
Aptalca bir şey olabilir ama argümanı pek anlayamadım. Temel iddia oldukça sıradan ve SSS'de de kabul edildiği gibi, Turing-tam bir hesaplama ortamı varsa, video oyunlarının yerleşik mekanikleri dahil her yerde bir LLM gerçekleştirilebilir demek.
Ama buradan yola çıkıp LLM'leri düşünme biçimimizde büyük bir dönüşüm gerektiği iddia ediliyor. Örneğin AoE II içine bir LLM kopyalayıp “yalnızım” diye girdiğimizde “üzücü olmuş, bir arkadaşınla görüşmeyi denesen? Böyle durumlarda yakınlık yardımcı olur” diye yanıt veriyor diye, o AoE II-LLM'nin neyin yardımcı olduğunu bildiğine, gerçekten empati kurabildiğine ya da bir simülasyon olmasından bağımsız olarak çıktısının güvenilir olduğuna ikna olmak zor
Yazılım ve donanım mühendisliğine aşina biri olarak taşıdığım bir önyargı olabilir ama burada hiçbir bilişsel dönüşüm hissetmiyorum. “Bu token'ı veri merkezindeki ekran kartları üretti” ile “bunu video oyununun içindeki bir Turing makinesi üretti” bana farklı gelmiyor
LLM'leri dünya modelimiz içinde konumlandırmanın zor olduğu ve onlara aşırı derecede insan benzeri özellikler atfetme eğilimimiz bulunduğu konusunda %100 katılıyorum, ama bu makalenin o sorunu çözmeye ne kattığını bilmiyorum
Aynı hatayı yapıyor gibi görünüyor. Çince odadaki kişi ya da oyun motoru gibi sistemin “sadece” kuralları izleyen bir şey olduğunu gösterip, buradan onun zekâya ya da genel insanî niteliklere sahip olamayacağı sonucuna varıyor
Ama bir şeyi zekâsız parçalara ya da kurallara indirgemek, bütünün gözlemlenebilir özelliklerini sihirli biçimde kaybettiğini gösteren geçerli bir argüman değildir diye düşünüyorum
Tabii makalenin bütün argümanını baştan sona okumuş değilim; sonuçta sadece internette yorum yazan biriyim
Ne yazık ki yazı AOE2'nin gerçek AI'ını ele almıyor. AOE2 AI'ı CLIPS tabanlı ve bu, RETE motoru üstünde çalışan s-ifadeli bir uzman sistem; tanıdığım biri buna epey derin girdi ve tanıtım yazısı, ders, hatta deklaratif bir sohbet sunucusu bile yaptı
AOE2 AI belgeleri https://www.scribd.com/document/348253/CPSB ve https://userpatch.aiscripters.net/reference.html adreslerinde. Örnekler, buradaki gibi kurallara dayalı şekilde strateji koşulları ve hedefler tanımlıyor
Özette anlamı değiştiren bir yazım hatası var. “Age of Empires II on” değil, “Age of Empires II in” olmalı
Makale, AoE 2 içinde bir sinir ağı kurup eğittiklerini ve Lego'nun ya da Boston'un da sinir ağları için bir substrat olabileceğini savunuyor. İlkiyle ilgili örneklerden biri Wang tiling, ikincisiyle ilgili örneklerden biri ise billiard-ball computers. Bu yaklaşım, 2011 tarihli bir makalede yaşayan M. guinotae asker yengeç sürüsüyle gerçekleştirilmiş ve buna “crab computers” da denmişti
Bugün AOEII'nin Turing-tam olduğunu öğrendim
İlginç bir blog yazısı olabilirmiş, ama onun yerine okunması zor, gösteriş meraklısı bir makale olmuş; muhtemelen vergi parasıyla desteklenmiştir ve kimseye de faydası yok
Bu paragrafı okuyunca, en başta bunun okumaya değmeyeceğine dair içgüdümü dinlemediğime pişman oldum
Zihin felsefesi geçmişim var ve 2. bölümdeki alıntılara bakınca makalenin nasıl bir argüman kuracağını tahmin etmiştim. Ama hepsini okuduktan sonra bile bu makalenin tam olarak neyi savunduğunu hâlâ hiç anlamıyorum