Bilgi Emeğinin Simülakrı (Yanılsaması)
(blog.happyfellow.dev)- LLM'ler yüzeysel kaliteyi kusursuz biçimde taklit ederken, bilgi emeğinin gerçek kalitesini değerlendirmekte kullanılan vekil ölçütler (proxy measure) etkisiz hale geliyor
- Bilgi emeğinde özsel kaliteyi değerlendirmek zor olduğu için uzun süredir belgenin biçimsel yetkinliği gibi vekil ölçütlere dayanılıyordu; ancak LLM'ler bu vekil ölçütleri kolayca geçebiliyor
- Yapay zekanın yazdığı kodlar ve raporlar dışarıdan profesyonel görünse de, fiilî doğruluk ya da kullanışlılıkları doğrulanmadan onaydan geçebiliyor
- LLM'in kendisi de "doğru mu"ya göre değil, "makul görünüyor mu"ya göre eğitildiğinden aynı vekil ölçüt sorununu içinde barındırıyor
- Milyarlarca dolar yatırılarak kurulan sistemlerin, gerçek işi değil işin simülakrını yapan araçlar olarak kullanıldığı yönünde bir uyarı
Vekil Ölçütün (Proxy Measure) Rolü ve Sınırları
- Bir pazar analizi raporu alındığında, tarih hatası, yazım yanlışı veya yinelenen grafik gibi yüzeysel kusurlar yüzünden tüm raporun çöpe atılması sık görülen bir durumdur
- Asıl ilgilenilen şey raporun gerçeği yansıtıp yansıtmadığı ve iyi kararlar alınmasına yol açıp açmadığıdır; ancak bunu doğrudan doğrulamanın maliyeti yüksektir
- Yüzeysel kalite, doğrulama maliyeti düşük olduğu ve gerçek kaliteyle yeterince ilişki gösterdiği için vekil ölçüt işlevi görmüştür
- Bu sorun tüm bilgi emeğinde vardır; başkasının işinin kalitesini nesnel olarak değerlendirmek çok çaba gerektirdiği için yapı büyük ölçüde vekil ölçütlere dayanır
LLM'lerin Vekil Ölçütleri Etkisizleştirme Mekanizması
- Vekil ölçütler bugüne kadar teşvik uyumsuzluğunu (misaligned incentives) bastırma işlevi görüyordu; ancak LLM'ler bunu bozuyor
- LLM'ler gerçek işin kalitesini yeniden üretmeden de yazı stilini simüle etmede son derece başarılı
- ChatGPT'den bir pazar analizi raporu istendiğinde, ortaya çıkan çıktı üst düzey bir danışmanlık firmasındaki uzmanın yazdığı bir metin gibi görünüyor
- Bir yazılım mühendisi yapay zekayla binlerce satır kod yazdığında, birkaç saniyelik göz gezdirmeyle bu kod yüksek kaliteliymiş gibi görünebiliyor
- Ekip arkadaşları da kod incelemesini yapay zekaya bırakıp bulunan sorunları mekanik biçimde ele alırken, işin ritüeli korunuyor ama fiilî kalite güvence altına alınmıyor
LLM'in Kendisinde İçkin Olan Aynı Sorun
- LLM eğitiminin kendisi de "yanıt doğru mu" ya da "yanıt faydalı mı"yı değerlendirmiyor
- Eğitim ölçütü, "eğitim verisinde yer alması muhtemel bir yanıt mı" ya da "RLHF değerlendiricisinin memnun kaldığı bir yanıt mı" düzeyinde kalıyor
- Sonuç olarak LLM'ler, yüksek kaliteli çıktıymış gibi görünen yanıtlar üretmek üzere optimize ediliyor ve bu optimizasyon yeteneği son derece güçlü
Mevcut Duruma Dair Uyarı
- Milyarlarca dolar harcanarak kurulan sistemler işin simülakrını gerçekleştirmek için kullanılıyor
- Şirketler token tüketimi liderlik tablosunda birinci olmak için yarışıyor
- Çalışanlar LLM çıktısını ne kadar çok üretirse, o çıktılara derinlemesine bakmak için ayrılan süre o kadar azalıyor
- Geriye kalan tek şey, hızlıca göz gezdirip "LGTM" yazmak ve ardından 17. Claude Code oturumunu açmak
1 yorum
Hacker News görüşleri
Yazıda dendiği gibi, yazım hataları ya da ufak yanlışlar gibi vekil göstergelerle insanın bilgi emeğinin kalitesini ölçmenin kolay olduğu iddiasına da, bu tür ipuçlarının yapay zekada olmamasının sorun yarattığı iddiasına da tamamen katılmıyorum
Kavramsal olarak berbat ama olgusal olarak doğru ve biçimsel olarak da düzgün insan çıktıları zaten eskiden de çoktu
10 yıl boyunca kurumsal müşterilerle çalışınca pre-LLM döneminin yüksek kaliteli bilgi emeğinin altın çağı olduğunu hiç söyleyemem; o zaman da ortalık işe yarayan bilgi emeği simulakrları gibi ıvır zıvırla doluydu
İnsan kaynaklı düşük kaliteli çıktının genelde cehalet, zaman baskısı, bencil hedefler gibi nedenleri olur ve bu nedenler epey tutarlıdır
Dikkatli ama bilmeyen stajyer, çok bilgili ama uykusuzluktan bariz şeyi kaçıran kıdemli gibi güven örüntülerini yakalayabilirsiniz
Ama yapay zeka bir seferde bir makale uygulamasını kusursuz yaparken aynı çalıştırmada birinci sınıf öğrencisi seviyesinde hata da yapabiliyor; bu da aşırı yetkinlik gösterebilen bir makine karşısında tam bir yetersizlik varsayan bir inceleme yapmanız gereken sezgi dışı bir durum yaratıyor
Yazım hatası ya da temel olgu hatası varsa kolayca elenebiliyordu ama bunların olmaması kalitenin yüksek olduğu anlamına gelmez
Genelde bu tür kontroller sadece ilk kapıdır, her şey değildir; o kapıyı geçince gerçek sorunları görmek daha kolay olur
Kodda reasoning'den önce lint ve stil düzenlemesi yapmak gibi
Ama kişi o %99’un yapay zeka ürünü olduğunu bilmediği için, fark ettiği %100’lük örüntüye bakıp yapay zeka yazılarının hepsini ayıkladığını sanmaya yatkın olur
Zaten birçok bilgi emeği başka bir şeyin vekiliydi
Yazım hatasız ve biçimsel olarak derli toplu kalite, ütülenmiş beyaz gömlek ve kravat gibi daha çok saygı sinyaliydi; gerçekte kimsenin derinlemesine okumadığı uzun belgeler de çoktu
Sonuçta bu fedakarlığı ve itaati sembolik olarak göstermenin bir yoluydu ve LLM bu sinyal sistemini ortadan kaldırıyor
İçeriğin kalitesine eskiden de gerçekten bakılmıyorsa, demek ki o içerik baştan beri o kadar da önemli değildi
Akademide yapay zeka inceleme maliyeti sorunu şimdiden görünmeye başladı ama bu, yazıda söylenen nedenlerle biraz farklı
Asıl mesele kötü işin işaretlerinin kaybolması değil; yapay zeka kullanılarak üretilmiş işleri dikkatle incelemenin maliyeti, sadece insan emeğiyle taşınamayacak kadar büyüyor
Örneğin ekonomi dergilerinde ekler yüzlerce sayfaya çıkabiliyor ama insanların okuyabileceği zaman sınırlı
Diğer alanlardaki dergilerin de sadece yeni gönderi sayısındaki artışla değil, her makaleyi doğrulamak için gereken inceleme yoğunluğu ile de baskı altında olup olmadığını merak ediyorum
Bunun altındaki düzeylerde neyin doğru olduğu ile neyin doğru göründüğü arasındaki farkı ayırmak neredeyse imkansız olabiliyor
Yapay zekayı kullanırken anlamayı cargo-cult yaptığımı hissediyorum
Bir şeyi anlamış olmanın yüzeyini yeniden üretiyor, ama gerçekten anlamak için gereken zaman ve emeği kendimden alıyorum
Claude'a Snowflake Cortex'i, entegre kodu, belgeleri, Jira ticket'larını yedirirsen her şeyi sorabileceğine ve her şeyin çok daha iyi olacağına inanıyor
Ama bu saplantı büyük bir çıktı üretmedi ve birkaç kez teknolojinin kusurlarını doğrudan ve sert biçimde yaşadı
Herkes agentic workflow ve devasa şirket içi wiki vizyonundan bahsediyor ama ben yapay zekayla teslim hızını epey artırırken iddialı maceralara zaman harcamayan tarafta olduğum için sürekli sonuç üretiyorum
Eskiden şirketin chatbot benimsenmesini eleştiren insanların, şimdi trilyonlarca .md dosyası ve skill dosyası toplayıp kendi chatbot'larını yapmak için token yakmasında bir ironi de var
Gerçek endişe verici olan, kurumsal düzeydeki gerçek bilginin bu tür kestirmeler içinde kaybolması
Basit örnek istekleri ya da kavram öğrenme soruları sorun değil ama mevcut araç ve altyapıyı değerlendirip dağıtım hızını 5 kat artıracak, web araştırması yapacak, kurumsal benimseme önerisi ve 5 yıllık maliyet-fayda analizi hazırlayacak bir prompt insanı kendi kendine zayıflatıyor
Bugünlerde herkes Claude'un yazdığı önerileri etrafa fırlatıyor; biraz kendi kazı yapma ya da bir mimar veya kıdemli mühendisle birlikte keşfetme süreci atlanıyor
Sonuçta pek çok şeyi sadece yüzeysel anlıyorlar, derine inince açıklamakta zorlanıyorlar ve yapay zekanın verdiği cevabı kesinleşmiş strateji gibi görüp sorgulatmak istemiyorlar
Daha deneyimli insanlardan öğrenme fırsatını da bir öğrenme deneyimi olarak görmez oluyorlar
Sonunda insan beyninin hâlâ en olağanüstü teknolojilerden biri olduğuna tekrar inanıyor ve bu devasa yapay kütüphaneyi neden ille de kendimizin dışında kurmaya çalıştığımızı sorguluyorum
Bret Devereaux'nun Game Of Thrones eleştirisinde söylediği gibi, elit bakış açısına dayalı dünya görüşü yalnızca elitlere makul ve ütopya gibi gelir
Gerçek emekten kopuk bu tür köpükler sonunda büyük patlar; yapay zeka yüzünden işini kaybeden kitleler ekmek bile bulamadığını söylerken onlara pasta yemelerini söylemek gibi bir tavır olursa Fransız Devrimi ölçeğinde bir tepkiyi bile hayal edebiliyorum
Ama derinlemesine anlamaya çalışırken yardımcı olan bir araç olarak bakınca, yapay zeka kadar iyisi de nadir bulunur
Sonuçta bir şeyi anlamak onu bizzat yapmakla neredeyse aynı şey
Anlamıyor olmak sorun değil ama o durumda, vekil göstergeler olsun ya da olmasın, sonunda sadece başkasının anlayışına güvenmek zorundasınız
Daha az iş yapıp daha çok güvenme yönü bir noktaya kadar mümkündür ama onun ötesine geçince gelecekteki işler tehlikeye girer
simulacrumgerçekten çok iyi bir kelimeSanırım bu yüzden orta kademe yöneticiler LLM yüceltilmesinin ilk müritleri gibi görünüyordu
Orta kademe yöneticilerin, rolün gerçek ustalığından bağımsız olarak bilgi emeğini sürekli daha da soyutlamaya iten pek çok teşviki var ve bu soyut katman da sanki embedding space içinde özellikle iyi temsil ediliyor
Yapay zeka kodu çoğu zaman olduğundan daha kötü görünüyor
Aşırı geveze, kafa karıştırıcı ve fallback'lerle dolu oluyor; sorun çıktığında da sayısız try/catch içinden akıp giderek stack trace'i alakasız yerlere gönderebiliyor
Yine de saf işlevsellik açısından bakınca, dış görünüş olarak benzer insan yazımı koda göre daha iyi çalıştığı çok oldu
Çünkü hem insanların hem de LLM'lerin üzerinde akıl yürütmesi zordur
Böyle blog yazısı tarzı içeriklerin daha fazla olmasını isterim
Uzunluğu yerinde, mesajı iyi iletiyor ve anlatısallığı da var
Bu aralar roman uzunluğunda LLM üretimi yapay zeka çamuru çok fazla olduğu için daha da hoş geliyor
Sektördeki birçok kişi için bu oldukça apaçık bir gidişat gibi görünüyor
Sorun, ortaya konan paranın çok büyük olması; bu yüzden büyük oyuncular istediklerini zorlamaya devam ediyor
Atom altı parçacıkların aslında tek tek evrenler olduğunu ve özelliklerinin, o evrenleri yöneten varlıkları ve onlar ortadan kalktıktan sonra bile işlemeye devam eden otomasyonu yansıttığını hayal etmeye başlıyorum
Entropi toplayarak kendini sürekli çoğaltan otomatik makineler gibi
Biz de şimdi bizden daha büyük bir güç yaratıyoruz ve bir noktada geri döndürülemez bir eşike ulaşabiliriz
Sayısız atom altı evren ve uygarlığın yükselip çöktüğünü ve özerk sahte-zekâ teknolojileri tarafından tüketildiğini, bunun da makro ölçekte parçacık davranışı olarak ortaya çıktığını düşündürüyor
Şu anda biz de sonuçta bir parçacık yaratıyoruz ve kolektif seçimlerimiz, içinde bulunduğumuz üst evrene çok küçük ama anlamlı bir etki yapıyor olabilir
Birinin çıktısı her zaman bir başkasının girdisi olur
LLM ile miktarı artırırsanız, sonraki kişi de bunu yine LLM ile parse edip kendi çıktısını üretir
Bu böyle sürer ve nihai tüketici itiraz ettiğinde, hatanın tam olarak nerede başladığını artık kimse belirleyemez
Çünkü göz önünde sadece son tüketici vardır, geri kalan herkes ise yedi kat proxy'nin arkasına saklanmıştır