- LLM'leri insanmış gibi kişileştiren yaklaşımı eleştiren bir yazı. LLM sonuçta bir **'matris çarpımı ve doğrusal olmayan fonksiyonlar kümesi'**dir
- LLM'nin ürettiği dil dizileri karmaşık işlevsel yollardır; insanlardaki gibi 'niyet' ya da 'etik' bu sürece dahil olmaz
- LLM güvenliği (Alignment) sorununun özü, istenmeyen çıktı olasılıklarını matematiksel olarak ölçmek ve sınırlamaktır
- Etik, bilinç gibi insan merkezli kavramları LLM'lere uygulamak tartışmayı bulanıklaştırır ve gerçek problem tanımıyla çözümünü gölgeler
- İnsan bilinci ile LLM'ler özünde farklıdır; önemli olan teknik anlayış ve toplumsal dönüşüme uyum sağlamaktır
LLM'lere insanmış gibi bakmayan bir perspektife neden ihtiyaç var
LLM'ler ve kişileştirme tartışmalarına dair sorun bilinci
- AI ve LLM (büyük dil modeli) tartışmalarında alignment ve AI güvenliği gündeme geldiğinde, birçok uzman LLM'lere insani özellikler (bilinç, niyet vb.) atfedilmesi eğilimi karşısında kafa karışıklığı yaşıyor
- LLM'ler özünde MatMul (matris çarpımı) ve doğrusal olmayan fonksiyonların birleşimi olarak görülebilir
LLM'lerin yapısal özü
- LLM'ler tek tek kelimeleri (girdi token'larını) vektör uzayına eşler ve önceki yolu temel alarak bir sonraki token'ın olasılık dağılımını hesaplayıp çıktıyı ardışık olarak üreten bir fonksiyondur
- Bu süreç **'yüksek boyutlu uzayda Snake oyunu'**na benzer; üretim yolu ise dinamik sistemlerdeki strange attractor gibi karmaşıktır
- LLM'ler insanların yazdığı büyük miktarda metin + uzmanlık alanı korpusları + otomatik olarak üretilip doğrulanabilen verilerden öğrenerek, insan dilinin yapısını taklit eden bir eşleme elde eder
Kaçınılması gereken yollar (dil dizileri), Alignment ve güvenlik sorunu
- Bazı dil dizileri toplumsal ve etik açıdan uygunsuz olduğundan üretilmemelerini isteriz
- Ancak hangi yolların istenmeyen olduğuna dair katı bir matematiksel tanım yapmak zor olduğu için, dağılım örnekler ve karşı örneklerle yönlendirilir (nudge)
- LLM'lerde "Alignment" ve "güvenlik", istenmeyen dizilerin üretilme olasılığını matematiksel olarak ölçme ve buna sınırlar koyma problemidir
- Ancak gerçekte 'istenmeyen' dizi ölçütünü matematiksel olarak açık biçimde tanımlamak mümkün değildir; bu yalnızca örneklerle yapılabildiğinden pratik sınırlar vardır
- Belirli bir LLM'de verilen bir dizinin ortaya çıkma olasılığı hesaplanabilir, ancak tüm bu olasılıkları toplayıp ya da entegre edip "bu model her N çalıştırmada bir istenmeyen dizi üretir" diye kesin hüküm verilemez
LLM'lerin gerçek faydası
- LLM'ler mevcut doğal dil işleme (NLP) alanındaki pek çok problemi algoritmik olarak çözülebilir hale getiriyor
- Örneğin doğal İngilizce ile belge özetleme, verileri JSON yapısında düzenleme, yaratıcı masal ve görsel üretme gibi, 5-6 yıl önce mümkün olmayan işleri artık doğal biçimde yapabiliyorlar
- Hızlı iyileşme eğrisi nedeniyle gelecekte de daha önce çözülemeyen daha fazla problemi çözecekleri öngörülüyor
İnsan gibi görme yaklaşımının sınırları
- LLM'lere 'bilinç', 'etik', 'değer', 'amaç' atfeden yaklaşıma karşı çıkılıyor
- LLM'ler sonuçta yalnızca girdinin verilmesiyle çıktı üreten bir **'özyineli denklem'**den ibarettir
- AI'nin 'uyanması' ya da 'amaç bilinci kazanması' türü tartışmalar, hava durumu simülasyonunun duygulara sahip olduğunu iddia etmekle aynı düzeyde bir hatadır
- AI tartışmalarında 'davranış', 'etik kısıtlar', 'hedef peşinde koşma' gibi insan merkezli terimler problemin özünü bulanıklaştırır
- Bu, insanların geçmişte doğa olaylarını 'tanrının öfkesi' ya da 'kötü ruhlar' gibi kavramlarla kişileştirmesine benzer bir bilişsel hatadır
Alignment tartışmasının doğru yönü
- LLM yalnızca bir dizi üretim fonksiyonudur ve girdi öneki ayarlanarak çıktı olasılıkları değiştirilebilir
- İstenmeyen tüm çıktı dizileri için, olasılığı maksimize eden önekleri bulmak da matematiksel bir yaklaşımdır
- Bu tür açık, formül temelli yaklaşımlar problem tanımını ve çözümü daha net hale getirir
AI alanında kişileştirme neden sık görülüyor
- AI sektöründeki birçok lider, bu alana AGI'nin mümkün olduğuna dair yaşam hedefiyle girmiş olma eğilimindedir
- Bu yüzden teknik tartışmalara insan düzeyinde zekâ ya da tanrısal bir varlık yaratma inancı kolayca sızabiliyor
- Kişileştirici bakış açısından uzaklaşma çağrısının kabul görmesinin zor olduğu da açıkça kabul ediliyor
İnsan bilinci ile LLM'ler arasındaki temel fark
- İnsanlar, yüz milyonlarca yıllık doğal seçilim, karmaşık sinir yapıları, hormonlar, yüksek boyutlu duyusal girdiler, enerji düzenleme gibi tam olarak anlaşılmamış süreçlerden geçerek evrimleşmiş, özünde çok katmanlı ve karmaşık varlıklardır
- İnsanların belirli bir diziyi üretme olasılığını hesaplamak imkânsızdır
- LLM'ler insan düşüncesinden tamamen farklıdır ve hatta 'bu diziyi üretme olasılığı'nın kendisini tanımlamak bile zordur
- 'Etik' ya da 'hayatta kalma içgüdüsü' gibi insan kavramlarını LLM'lere uygulamak, sayısal çözümleme yapan bir simülasyon programının duygularını tartışmak kadar tuhaftır
Gerçek sorun ve değişimin yönü
- Modern LLM'lerin sunduğu işlevsel sınıf son derece faydalıdır ve AGI'ye hiç yaklaşmasa bile toplumda büyük değişime yol açar
- LLM'ler AGI'ye ulaşmasa bile mevcut teknolojiyle dünyada büyük dönüşümler yaratabilir
- Elektrifikasyon (Electrification) benzeri toplum çapında bir dönüşüm mümkün olabilir
- Önümüzdeki onlarca yılda yaşanacak hızlı değişim içinde, gerçek sorunlara (güvenlik, kullanım vb.) odaklanmak gerekir
4 yorum
Antropomorfizm yapılıyor mu yapılmıyor mu meselesinden ziyade.. Zaten kendi kendine öğrenip akıl yürüttüğü noktada, güvenliğin garanti edildiği aşamanın geçildiğini düşünüyorum (bu noktada insan olan senin her şeyi kontrol edebileceğine inanmak kibir olur). Öğrenme açısından bakarsak, aksine onu insan gibi düşünecek ve insan bakış açısından öğrenilecek şekilde yönlendirmenin güvenliği bir nebze artıran yöntem olmadığını söyleyebilir miyiz!?
LLM yapısı gereği güvenliği kusursuz biçimde garanti etmek imkansız gibi görünüyor. Bence LLM'lerin istikrarsız olması kaçınılmaz ve önemli olan, ajanlar ya da otonom sürüşte olduğu gibi fiziksel eylemlere yetkinin nasıl verileceği gibi görünüyor.
Bu, araba ile maratonu karşılaştırmak gibi geliyor..
Hacker News görüşü
LLM’lerin nasıl çalıştığını teknik olarak iyi biliyorum, ama onları bir ölçüde insan üzerinden benzetmenin anlamsız olduğunu düşünmüyorum
“Olasılıksal olarak bir sonraki kelimeyi üreten bir jeneratör” gibi ifadeler, LLM’in karmaşık dünya modelleme sorularını yanıtladığı ya da yaratıcı hikâyeler kurduğu durumlarda pek anlam taşımayan, düşük seviyeli bir soyutlama gibi geliyor
UI event API’sinden söz ederken 0 ve 1’leri, transistör voltajlarını vb. anlatmak gibi; teknik olarak doğru olsa da yüksek seviyeli bir sistemi anlamakta işe yaramıyor
Daha yüksek seviyeli olguları konuşmak için daha yüksek seviyeli soyutlamalar gerekiyor ve iç seviyede tam olarak ne olup bittiğini de pek bilmiyoruz
LLM’ler insanları bir ölçüde taklit ediyor (en azından çıktı biçimi açısından), bu yüzden insan merkezli benzetmelerin en işe yarar soyutlama olduğunu ve insanların LLM’in imkânlarını konuşurken doğal olarak buna yöneldiğini düşünüyorum
LLM’in yüksek seviyeli olgularını anlamak için daha yüksek seviyeli soyutlamalar gerektiğini söyledin ama bence içeride nasıl çalıştığını zaten biliyoruz
Verimli ağ tasarımı ve performans iyileştirmeleri, iç işleyişe dair anlayışa (ağ boyutları, feature extraction, attention, attention head’leri, caching, yüksek boyutlu özellikler, overfitting önleme vb.) büyük ölçüde dayanıyor
İnsan merkezli benzetmeler, ancak popüler bilim kitaplarında sınırlı bir kelime dağarcığı kullanmak gerektiğinde lazım olan bir şey; pratisyenler için zorunlu değil gibi geliyor
Tersine, bana göre insan üzerinden benzetme yapmak, LLM anlatısını çarpıtan başlıca neden
İnsanlar LLM’lerin düşündüğünü ve akıl yürüttüğünü söylüyor ama gerçekte böyle davranmıyorlar
Üstelik bu algı, LLM satan şirketler tarafından aktif biçimde teşvik ediliyor
Sonuçta bunun, LLM’in yararlılığı ve uygulama alanları hakkındaki tartışmaları bulanıklaştıran bir yan etkisi olduğunu düşünüyorum
The Selfish Gene’da Dawkins’in genlere dair “niyet atfeden bakış açısından” söz ettiğini hatırlıyorum
Genleri sanki bir niyetleri varmış gibi anlatmak yanlış bir ifade ama her seferinde “bu gene sahip birey şu davranışı gösterme eğilimindedir” gibi ayrıntılı bir açıklama yazmak yerine, geni amaç sahibi bir fail gibi anlatmak, anlaşılması kolay ve kullanışlı bir kısaltma işlevi görüyor
Düşük seviyeli soyutlamayı anladıysan, daha yüksek seviyeyi konuşurken o düşük seviyede kalmaya gerek olmadığını düşünüyorum
Dil modellerini yeterince kullandıktan sonra vardığım sonuç şu oldu: İnsan merkezli benzetmenin en tehlikeli olduğu yer, konuşmalı UI
Tek bir Q/A çiftine odaklanınca ya da sohbet geçmişini mümkün olduğunca azaltıp düzenleyince, LLM kullanımıyla ilgili birçok sorun ciddi biçimde azaldı
Birden fazla mesaj alışverişinden sonra konuşmayı gözden geçirmek ya da “halüsinasyonu” düzeltmesini istemek, hatalı bilginin tekrar tekrar anılmasına ve böylece konuşmanın yanlış yönde daha da pekişmesine yol açıyor
Aynı şeyi kodlamada da gördüm; hatalı kodun konuşmayı sürekli kirlettiği açıkça görülüyordu
Ben GP ve OP gibi değilim; LLM’in iç işleyiş durumu zihnimde canlanmadığı için kolay heyecanlanamıyorum
Bazen böyle insanları kıskanıyorum
Belki de bunun sebebi matematik sınavlarını sık sık berbat etmiş olmamdır
Bunun yerine olabildiğince soyut, görsel ve felsefi biçimde hayal etmeye çalışıyorum
Bu konuda yazdıklarımı blogumda bulabilirsiniz; geri bildiriminiz olursa e-postayla ulaşabilirsiniz
LLM’i yalnızca bir dizi üreticisi olarak görmek ve yanlış davranışı yanlış dizi üretimi diye geçiştirmek bana fazla indirgemeci geliyor
LLM’de token’lardan doğrudan görünmeyen hidden state’ler var ve model, daha uzun vadeli bir sonuç için kendi iç durumuyla çelişen çıktılar da verebilir
Buna “yalan söylemek” demek, acaba fazla insan merkezli bir benzetme mi olur diye düşünüyorum
Öyleyse, LLM’in tahmin kaybını en aza indirmek için içsel olarak “davranışı” taklit etme sürecini açıklayacak yeni terimlere ihtiyacımız var
Benzetmeye dayalı düşünme her zaman dikkat ister ama bu, onun başlı başına gereksiz olduğu anlamına gelmiyor
Ancak yeni terimler fazla muğlak olur ve yaygınlaşmaları da zor olacağı için, gerçeklik sonunda yine insan merkezli terimlere kayıyor
Elbette bu da LLM’i “kusurlu bir insan” gibi gösterdiğinden yanlış anlamalara açık, ama en azından gereksiz jargonu azaltıyor
Ben uzun süre hidden state’li modellerle çalıştım; bu özelliğin istatistiksel modellerde son derece klasik bir nitelik olduğunu düşünüyorum
Sık kullanılan LLM ders kitapları bile bunu latent variable model olarak açıklar
LLM, sadece latent variable model’lerin ölçeği ve karmaşıklığı muazzam biçimde büyütülmüş bir versiyonu
Aslında bu tür insan dışı açıklamalar bana daha kolay geliyor
Latent variable model’ler eskiden beri gizemli ve esrarengiz kabul edilirdi
Bu gizemliliğin, LLM’leri insan üzerinden benzetme kültürüne katkısı oldu ama bir ölçüde verimli iletişim ve karmaşık sistem modellemesi için gerekli bir soyutlama da bu
Yine de bunun aşırı beklentilere, “makinede bir ruh varmış gibi” söylemlere ve faydanın abartılmasına yol açtığını da düşünüyorum
Büyük kurumsal vendor’ların pazarlama açısından insanlaştırıcı terimleri öne çıkardığı için LLM’lerin insan üzerinden benzetildiğini düşünüyorum
İnsanlar teknolojiye heyecan duyuyor ve vendor’ların kullandığı terimleri aynen tekrar ediyor
Bu noktada bu bana bir tür kendi kendini gerçekleştiren süreç gibi geliyor
GIF telaffuzu tartışması memesine benzer bir durum
Hidden state dediğin şeyin aslında modelin token birleşim olasılıklarını daha iyi tahmin edebilmesi için kullanılan iç mekanizma olduğunu düşünüyorum
Bu mantık, 20. yüzyıl başındaki mantıksal pozitivistlerin girişimlerinde de başarısız olmuştu
Dilin birleşim olasılıklarını çok iyi tahmin ederek yoğun bir “bilgi” elde edilebileceği varsayılıyordu
Ama felsefi açıdan, dilin bilginin kusurlu bir ifadesi olduğuna dair çok sayıda gerekçe var
İnsan düşüncesinin yalnızca sembol örüntülerini öğrenip çıktı vermekten daha karmaşık olduğuna dair yeterli kanıt da mevcut
Hume gibi kuşkucular da böyle iddialar ileri sürmüştü ama daha sonraki epistemoloji tartışmalarında daha iyi açıklamalar sunulduğunu düşünüyorum
Orijinal gönderinin yazarıyım
“Hidden state” ile neyi kastettiğini merak ediyorum
Çoğu LLM’de context’in kendisinin durum olduğunu ve ayrı bir “hidden” state olmadığını düşünüyorum
Bir şeyi kaçırıyorsam açıklarsan sevinirim
LLM’de token dizisini embedding N^L’den R^{LxD}’ye, attention üzerinden yine R^{LxD}’ye ve son olarak vocabulary için ayrı bir projection ile R^{LxV}’ye dönüştürürüz; yani her token için bir olasılık dağılımı elde edilir
Attention içinde çeşitli Multi Head yöntemleri var ama her zaman token’a bağlı temsillerle çalışıyoruz
Bu yüzden, belirli bir token’a bağlı olmayan bir hidden state olmadığını savunuyorum
Bu yönüyle, açıkça güncellenen hidden state’e sahip LSTM gibi modellerden farklı
Önceki kelimelerden olasılık hesaplama ilkesine dair açıklama, çoğu şeyi anlamak için yeterli bence
İnsan merkezli benzetmeye ihtiyaç duymuyorum
Yazarın temel iddiası Searle’ün görüşüne benziyor: Hesaplama, işlev ve sözdizimsel kurallara dayalı sistemlerle gerçek bir zihni yeniden üretmek mümkün değil
Birçok kişi buna katılacak ya da karşı çıkacaktır ama sonuçta cevabı belirleyen şey, hangi öncülleri seçtiğinizdir; özellikle de bilinçle ilgili öncülleri
Yazar, insan merkezli benzetmeler yerine somut teknik sistemlere odaklanmanın daha üretken olduğunu düşünüyor ama ben buna ancak o kadar katılıyorum
Bunun ayrı bir nokta olarak, sistem kurallara dayalı olasılıksal bir sistem olsa bile bir şekilde emergent, beklenmedik ve mind-like özellikler gösterdiğini de kabul ediyorum
ML ve matematik geçmişi olan insanlar, bu sistemlerin ahlak, duygu, kişilik gibi insani özelliklere sahip olduğunu düşünmüyor; ancak çoğu insan için matematiksel yapılar üzerinden yaklaşmak zaten zor ve dışarıdan bakınca “ikna edici biçimde” insan gibi davrandığını hissediyorlar
Bu yüzden pratik açıdan, insanî özelliklerden yola çıkarak soru sormak da gayet anlamlı olabilir
Sonuçta hem aşırı teknik sistem bakışına hem de kullanıcının zihinsel deneyimine dayanan niteliksel, öznel bakışa ihtiyaç olduğunu düşünüyorum
“Ortada emergent ve mind-like bir şey var” fikrinin, o sistemin nasıl çalıştığını iyi bilmeyen insanlara daha doğal geldiğini düşünüyorum
Clarke’ın “yeterince gelişmiş teknoloji sihirden ayırt edilemez” yasası gibi, bunun eşiği de herkesin teknik anlayış derinliğine göre değişiyor
Teknik okuryazarlığı düşük geniş kitlelerde AI’yi kutsallaştıran Godbot eğilimleri bile ortaya çıkıyor
İlgili yazılar: Spectator - AI Godbots tehlikesi, arXiv makalesi, Guardian - Tayland’daki AI falcısı
Bu tartışmaya çok iyi dengelenmiş bir bakış getirdiğin için teşekkürler
HN’de bazı insanların LLM’lere aşırı duygusal yaklaştığını ya da tam tersine LLM’lerde hiçbir ilgi veya değer olmadığını inatla savunduğunu görmek şaşırtıcı
Aşırı pazarlamaya tepki olarak kasıtlı biçimde temelsiz bir karşıtlığı seçen tavrı da anlamıyorum
Bir şeyin emergent ve mind-like görünmesinin nedeni, sonuçta insan iletişim örüntülerini tarihteki herhangi bir sistemden çok daha iyi taklit etmesi
Bu yetenek son derece etkileyici ve yaşam kalitesini artırabilecek pek çok gerçek fayda da sunuyor, ama “zekâ” en fazla bir yanılsama
Sektördeki herkes bu yanılsamayı kasıtlı olarak güçlendirmek istiyor ve nedeni de sonuçta parasal değer
Buna hiç gerek olmadığını savunuyorum
Başka birçok konuda ciddi etkiler yaratabilecek yanlış bir bakış açısını büyütmek için hiçbir neden yok
LLM, insan düşünce süreçlerini kısmen yansıtır, üstelik kötü biçimde
Bu olguya daha fazla anlam yüklemeye çalışmak, aynadaki kişinin canlı olduğunu sanmaya benzer
Aynanın insanı yansıtması, aynanın özünden değil insanın önünde durmasından kaynaklanır
LLM, insan düşüncesinin kalıntılarını yani veriyi girdi olarak almadığı anda, insan benzeri hiçbir şeyi artık yansıtmaz
Yazarın, bütün konuşmayı “insanlaştırma” diye etiketleme eğiliminde olduğunu düşünüyorum
“Goal” terimine takılmış gibi ve “goal” kelimesini kullanmayı bile insanlaştırma sayıyor gibi duruyor
Mesela tüm satranç tahtası puanlarını değerlendiren ve mat bulduğunda tüm karar ağacını çıkaran bir BFS’nin de bir “goal”u vardır
LLM ya da AGI hedefleri üzerine konuşurken “goal” gibi teknik bir terim kullanmak bana göre insanlaştırma ile ilgili değil
RL algoritmaları bağlamında “goal” kullanılmasında hiçbir sorun yok
Yazımda yalnızca LLM bağlamında “goal” kullanılmasına karşı çıktığımı anlamanı isterim
İnsanların “bilinç”, “etik”, “değerler”, “ahlak” gibi kavramları bu öğrenilmiş fonksiyona yansıtmaya başladığı noktadan itibaren buna katılamıyorum
Sonuçta elimizde devasa bir özyinelemeli denklem var ve biz çalıştırmazsak tek bir kelime bile üretmiyor
Bu mantıkla gidersek, önce insanı insan gibi anlatmayı yeniden sorgulamamız gerekmez mi diye de merak ediyorum
“LLM yalnızca dizi üreten bir fonksiyonken ona insan gibi davranılmasının sürmesi tuhaf” iddiasına katılmıyorum
İnsan da doğası gereği bir fonksiyonlar listesi doğrultusunda hareket etmesi bakımından farklı değil
LLM çok büyümüş bir function approximation sistemi; doğa ise yüz milyonlarca yıl boyunca hayatta kalma rekabetinde yalnızca bazılarının kaldığı evrim yoluyla fonksiyon türlerini sürekli değiştirdi
İnsanlarda matematik yasalarının ötesinde özel bir şey olduğuna inananlar olabilir ama bu, mistik bir tutumun ya da doğaüstü inancın ötesine geçmiyor
Böyle düşünmüyorsanız, o halde insan deneyiminin de sonuçta fonksiyonlar ve function approximation ile açıklanabileceğini kabul etmeniz gerekir
İlgili: Universal Approximation Theorem wiki
“Matematik yasalarının ötesinde insana özgü bir şey olduğuna inanıyor musun” iddiasının kendisi tartışmalı
İnsan deneyiminde ya da dille ifade edilebilen bazı alanların fiziksel açıklamanın kapsamını aştığı da açık
Örneğin kırmızı rengi hiç deneyimlememiş, siyah beyaz gören bir kişi, kırmızının öznel deneyimine hiçbir açıklama sistemi üzerinden sahip olamaz
İnsan dilinin işaret ettiği bazı olguların hâlâ fiziğin açıklama alanı dışında olduğunu düşünüyorum
Yazarın, insan bilinci konusunda “fonksiyonla açıklanamayacak bir şey var” pozisyonunu taşıdığı anlaşılıyor
İnsanlar bu tür düşüncelere sahip oluyor; dinî ya da felsefi öncüller gibi, ve bu zihinsel unsurları tartışma dışı bırakmalarını istemenin pratikte çok etkisi olmuyor
Bu yüzden, o öncülü kabul ederek tartışmaya devam etmek daha kullanışlı
LLM’in “Çince oda” gibi anlamadan yalnızca çeviri yapan bir işlev olduğunu kabul etseniz bile, pratikte insan gibi görünen davranışlar sergilemeyi sürdürüyor
İnsan merkezli benzetmeler teknik olarak yanlış olsa bile, sistemin davranışını öngörmek ve etkili kullanmak için pratikte daha iyi iş görüyor olabilir
Tersinden, insanlar tartışılırken fonksiyonlardan farklı olan kısmı ayrıca bir kenara koyabilirsiniz
“İnsan fonksiyonlardan dramatik biçimde farklıdır... bu diziyi üretme olasılığını hesaplayamazsınız” deniyor ama örneğin belli bir popüler kültür cümlesini verirseniz belirli yaştaki Amerikalıların kayda değer bir kısmının devamını söyleme olasılığının yüksek olacağını da tahmin edebilirsiniz; yani insanlarda da belli koşullarda olasılık hesabı yapılabilir
Ancak “insanların akıl yürütmesini ya da analitik düşünme süreçlerini en iyi lineer cebirle modelledik” kadarını söyleyebiliriz diye düşünüyorum
Sonuçta LLM’in bir “model”den fazlası olmasını beklemek, çeşitli sektörlerin, geçim kaynaklarının ve kariyerlerin dayattığı çıkar yüklü bir beklenti
Buna rağmen lineer cebir modelinin neden bütünüyle “yaşamı” ya da “yaşamsallığın bir yönünü” eksiksiz modellediğine dair elle tutulur bir kanıt yok
Gödelci bir örnekle “zombi kedi” ortaya çıkabiliyorsa, o temel olasılık modelini aşkın bir şey gibi görmemek gerekir diye düşünüyorum
“Universal Approximation Theorem” atfını, gittikçe daha iyi lookup table’ların function approximation için kullanılabileceği anlamına gelecek şekilde yorumluyorum
Bazı durumlarda LLM’in olasılıksal bir kelime üreticisi olduğunu net biçimde akılda tutmak çok önemli
Ama gündelik kullanımda, onu insan üzerinden benzeterek ele almak pratikte çok daha iyi çalışıyor
İnsan gibi davranmak, ihtiyaç duyduğunuz cevabı daha kolay yönlendirebilen kullanışlı bir soyutlama işlevi görüyor
Kusursuz bir benzetme değil ama örneğin “LLM JSON formatı veremezse biri ölecek” diye tehdit edildiği örnek, salt gradient descent açısından bakıldığında akla gelecek bir davranış değil
İnsanlar çevrelerindeki her şeye insanî özellikler atfetme eğiliminde
Cansız nesnelere (gemi, araba vb.) ya da hayvanlara, hatta bitkilere bile konuşurlar; içgüdüsel olarak bunu yaparlar
Çoğu insan arabasının kendisini sevmediğini gayet iyi bilir ama konuşmalı LLM’lerde gerçekten bilinç olduğuna inanan azımsanmayacak sayıda insan var
LLM’ler insan beyninden farklı olarak “öğrenmez” ya da “uyum sağlamaz” (en azından şimdilik); eğitilirler ve sonrasında salt okunur varlıklar olarak kalırlar
Buna rağmen LLM’ler kasıtlı olarak insanî iletişimi taklit edecek şekilde tasarlanmıştır
Bu nedenle yansıtma ve insanlaştırma kaçınılmaz biçimde ortaya çıkıyor
Henüz AGI olmayabilir ama insan öğrenme biçimlerinden ilham aldığı açık; buraya kadar gelmiş olması bile başlı başına ilginç bir sonuç
Kısa vadede ise LLM, konuşmalı bir arayüz olarak çok daha kolay kullanılabilen pratik bir araç hâline geldi ve gerçekten de insanların rahat kullanabileceği bir iletişim biçimiyle tasarlandı
Bu sayede özel bir eğitim olmadan herkes hemen etkili biçimde kullanabiliyor
“İnsanlar bir şeylere insanlık atfeder” ifadesine katılmıyorum; burada terim karmaşası var
Cansız nesneler için kullanılan kişileştirme (personification) ile gerçekten insanî özellikler ve bilinç yansıtılan anthropomorphism aynı şey değil
Gerçekte arabasının canlı olduğuna inanan insan çok azdır
Buna karşılık, LLM’in bilinçli olduğuna inanan çok insan var
Açıklama için: anthropomorphism vs personification
“LLM’in bilinçsiz olmasının sebebi beyin gibi öğrenmemesi ya da uyum sağlamaması” ifadesi ne yeter koşul ne de gerekli koşul
Bilince sahip olmak için öğrenme şart değil ama zaman akışının farkında olmak ve kısa süreli hafıza gerekli olabilir
Ağır demans hastaları da neredeyse hiç öğrenemez ama “şu anda burada olma” biçiminde öznel bir bilince yine de sahiptir
Yani kısa süreli hafızadan çok az kalmış olsa bile bilinç mümkün olabilir
Tersinden, sırf öğrenme de bilinç üretmez
Gerçek zamanlı öğrenen çok sayıda yazılım var ama hiçbirinin öznel deneyimi yok
Benim sorum şu: Acaba insan beyni de LLM benzeri biçimde çalışıyor olabilir mi?
Beyin de evrimsel değişim, mutasyonlar ve evrimsel ödül algoritmaları yoluyla özel bir yapı üretir
Bu yapı da sonuçta tahmin ve davranış üzerinden hayatta kalmayı ve üremeyi en üst düzeye çıkarır; ahlak, değerler, bilinç gibi yan hedefler de buna bağlı yan dallar olarak evrilip karmaşıklaşır
Sonuçta yeterli hesaplama gücü olsa bütün bu yapı, hatta dünya ve zaman akışıyla birlikte, dönüştürülebilir deterministik bir fonksiyon olarak ifade edilemez mi diye düşünüyorum
Yaşamın ortaya çıkışının kendisi bile imkânsız gibi görünen olasılıklardan doğmuşken, bugünkü bütün bu “hayret verici” şeylerin de sonunda matematiksel sistemlere indirgenebileceğini düşünüyorum
“İnsan beyni LLM ile aynı olabilir mi” sorusuna karşılık, sana şunu sormak isterim: Her sohbetten sonra bütün önceki içeriği tamamen unutuyor musun?
Çevrendekilerle konuşurken karşındaki kişi bağlamı ancak her seferinde her şeyi baştan eksiksiz tekrar ettiğinde anlayabiliyorsa, bence hemen bir uzmana görünmeli
Hafıza kaybını konu alan Memento (2000) filmini de izlemelisin
Önemli olan şu: Makinelere duygu, ahlak, motivasyon gibi şeyler atfetmemeliyiz
Çünkü makinelerde bunların hiçbiri yok
İnsan beyniyle epey benzerlik taşıdığını düşünüyorum
LLM, insan beyninin hesaplamalı modellenmesine yönelik en az 80 yıllık araştırma çizgisinin en güncel sonucu
LLM’in en güçlü yanı, başarısız olduğunda bedel ödememesidir
Prompt’u değiştirip tekrar deneyebilir ya da yeniden eğitebilirsin
İnsanlar ise tek bir hatada hayatlarını riske atabilir
LLM’in hatalarının ciddi bir sonucu yok; sadece talebi değiştirmen yeterli
“İnsanlar LLM’e bilinç, etik, değerler ve ahlak atfetmeye başladığı anda işler karışıyor” deniyor
Bu tür tartışmaların verimli olması için somut örnekler verilmesi gerekiyor ama pratikte konuşmalar hep birbirini ıskalıyor
Örneğin “model X’i istiyor ama Y’nin yanlış olduğunu bildiği için Z’yi tercih ediyor” gibi bir cümle duyulduğunda, bir taraf bunu modele bilinç ya da değer atfetmek olarak okuyor; diğer taraf ise sadece dış davranışı mecazi biçimde tarif ettiğini söylüyor (“su aşağı gitmek istiyor” gibi)
Sonuçta bu tür laf oyunları, “ben bunu felsefi düzlemde açıklayacağım” ile “ben sadece denizaltılardan söz etmek istiyorum” arasında paralel çizgiler hâline geliyor
Üretken bir tartışmaya dönüşmesi yapısal olarak zor görünüyor