2 puan yazan GN⁺ 3 일 전 | 1 yorum | WhatsApp'ta paylaş
  • LLM'ler yüzeysel kaliteyi kusursuz biçimde taklit ederken, bilgi emeğinin gerçek kalitesini değerlendirmekte kullanılan vekil ölçütler (proxy measure) etkisiz hale geliyor
  • Bilgi emeğinde özsel kaliteyi değerlendirmek zor olduğu için uzun süredir belgenin biçimsel yetkinliği gibi vekil ölçütlere dayanılıyordu; ancak LLM'ler bu vekil ölçütleri kolayca geçebiliyor
  • Yapay zekanın yazdığı kodlar ve raporlar dışarıdan profesyonel görünse de, fiilî doğruluk ya da kullanışlılıkları doğrulanmadan onaydan geçebiliyor
  • LLM'in kendisi de "doğru mu"ya göre değil, "makul görünüyor mu"ya göre eğitildiğinden aynı vekil ölçüt sorununu içinde barındırıyor
  • Milyarlarca dolar yatırılarak kurulan sistemlerin, gerçek işi değil işin simülakrını yapan araçlar olarak kullanıldığı yönünde bir uyarı

Vekil Ölçütün (Proxy Measure) Rolü ve Sınırları

  • Bir pazar analizi raporu alındığında, tarih hatası, yazım yanlışı veya yinelenen grafik gibi yüzeysel kusurlar yüzünden tüm raporun çöpe atılması sık görülen bir durumdur
  • Asıl ilgilenilen şey raporun gerçeği yansıtıp yansıtmadığı ve iyi kararlar alınmasına yol açıp açmadığıdır; ancak bunu doğrudan doğrulamanın maliyeti yüksektir
  • Yüzeysel kalite, doğrulama maliyeti düşük olduğu ve gerçek kaliteyle yeterince ilişki gösterdiği için vekil ölçüt işlevi görmüştür
  • Bu sorun tüm bilgi emeğinde vardır; başkasının işinin kalitesini nesnel olarak değerlendirmek çok çaba gerektirdiği için yapı büyük ölçüde vekil ölçütlere dayanır

LLM'lerin Vekil Ölçütleri Etkisizleştirme Mekanizması

  • Vekil ölçütler bugüne kadar teşvik uyumsuzluğunu (misaligned incentives) bastırma işlevi görüyordu; ancak LLM'ler bunu bozuyor
  • LLM'ler gerçek işin kalitesini yeniden üretmeden de yazı stilini simüle etmede son derece başarılı
  • ChatGPT'den bir pazar analizi raporu istendiğinde, ortaya çıkan çıktı üst düzey bir danışmanlık firmasındaki uzmanın yazdığı bir metin gibi görünüyor
  • Bir yazılım mühendisi yapay zekayla binlerce satır kod yazdığında, birkaç saniyelik göz gezdirmeyle bu kod yüksek kaliteliymiş gibi görünebiliyor
    • Ekip arkadaşları da kod incelemesini yapay zekaya bırakıp bulunan sorunları mekanik biçimde ele alırken, işin ritüeli korunuyor ama fiilî kalite güvence altına alınmıyor

LLM'in Kendisinde İçkin Olan Aynı Sorun

  • LLM eğitiminin kendisi de "yanıt doğru mu" ya da "yanıt faydalı mı"yı değerlendirmiyor
  • Eğitim ölçütü, "eğitim verisinde yer alması muhtemel bir yanıt mı" ya da "RLHF değerlendiricisinin memnun kaldığı bir yanıt mı" düzeyinde kalıyor
  • Sonuç olarak LLM'ler, yüksek kaliteli çıktıymış gibi görünen yanıtlar üretmek üzere optimize ediliyor ve bu optimizasyon yeteneği son derece güçlü

Mevcut Duruma Dair Uyarı

  • Milyarlarca dolar harcanarak kurulan sistemler işin simülakrını gerçekleştirmek için kullanılıyor
  • Şirketler token tüketimi liderlik tablosunda birinci olmak için yarışıyor
  • Çalışanlar LLM çıktısını ne kadar çok üretirse, o çıktılara derinlemesine bakmak için ayrılan süre o kadar azalıyor
  • Geriye kalan tek şey, hızlıca göz gezdirip "LGTM" yazmak ve ardından 17. Claude Code oturumunu açmak

1 yorum

 
GN⁺ 3 일 전
Hacker News görüşleri
  • Yazıda dendiği gibi, yazım hataları ya da ufak yanlışlar gibi vekil göstergelerle insanın bilgi emeğinin kalitesini ölçmenin kolay olduğu iddiasına da, bu tür ipuçlarının yapay zekada olmamasının sorun yarattığı iddiasına da tamamen katılmıyorum
    Kavramsal olarak berbat ama olgusal olarak doğru ve biçimsel olarak da düzgün insan çıktıları zaten eskiden de çoktu
    10 yıl boyunca kurumsal müşterilerle çalışınca pre-LLM döneminin yüksek kaliteli bilgi emeğinin altın çağı olduğunu hiç söyleyemem; o zaman da ortalık işe yarayan bilgi emeği simulakrları gibi ıvır zıvırla doluydu

    • Benim için daha büyük sorun, hataların insani olarak açıklanabilirliğinin ortadan kalkması
      İnsan kaynaklı düşük kaliteli çıktının genelde cehalet, zaman baskısı, bencil hedefler gibi nedenleri olur ve bu nedenler epey tutarlıdır
      Dikkatli ama bilmeyen stajyer, çok bilgili ama uykusuzluktan bariz şeyi kaçıran kıdemli gibi güven örüntülerini yakalayabilirsiniz
      Ama yapay zeka bir seferde bir makale uygulamasını kusursuz yaparken aynı çalıştırmada birinci sınıf öğrencisi seviyesinde hata da yapabiliyor; bu da aşırı yetkinlik gösterebilen bir makine karşısında tam bir yetersizlik varsayan bir inceleme yapmanız gereken sezgi dışı bir durum yaratıyor
    • pre-LLM dönemi kalite açısından bir altın çağ değildi ama LLM aceleyle hazırlanmış saçma sapan işi ayırt etmeyi sağlayan başka bir işareti gerçekten de ortadan kaldırdı
    • Aslında bu bir pozitif sınıflandırma değil, negatif filtre idi
      Yazım hatası ya da temel olgu hatası varsa kolayca elenebiliyordu ama bunların olmaması kalitenin yüksek olduğu anlamına gelmez
      Genelde bu tür kontroller sadece ilk kapıdır, her şey değildir; o kapıyı geçince gerçek sorunları görmek daha kolay olur
      Kodda reasoning'den önce lint ve stil düzenlemesi yapmak gibi
    • Göze çarpan yapay zekaya özgü kalıpları yakalayabilirsiniz ama geriye kalan, hiçbir işaret taşımayan %99’luk yapay zeka üretimi metni kaçırabilirsiniz
      Ama kişi o %99’un yapay zeka ürünü olduğunu bilmediği için, fark ettiği %100’lük örüntüye bakıp yapay zeka yazılarının hepsini ayıkladığını sanmaya yatkın olur
    • Bunun özünde çok önemli olduğunu düşünmüyorum
      Zaten birçok bilgi emeği başka bir şeyin vekiliydi
      Yazım hatasız ve biçimsel olarak derli toplu kalite, ütülenmiş beyaz gömlek ve kravat gibi daha çok saygı sinyaliydi; gerçekte kimsenin derinlemesine okumadığı uzun belgeler de çoktu
      Sonuçta bu fedakarlığı ve itaati sembolik olarak göstermenin bir yoluydu ve LLM bu sinyal sistemini ortadan kaldırıyor
      İçeriğin kalitesine eskiden de gerçekten bakılmıyorsa, demek ki o içerik baştan beri o kadar da önemli değildi
  • Akademide yapay zeka inceleme maliyeti sorunu şimdiden görünmeye başladı ama bu, yazıda söylenen nedenlerle biraz farklı
    Asıl mesele kötü işin işaretlerinin kaybolması değil; yapay zeka kullanılarak üretilmiş işleri dikkatle incelemenin maliyeti, sadece insan emeğiyle taşınamayacak kadar büyüyor
    Örneğin ekonomi dergilerinde ekler yüzlerce sayfaya çıkabiliyor ama insanların okuyabileceği zaman sınırlı
    Diğer alanlardaki dergilerin de sadece yeni gönderi sayısındaki artışla değil, her makaleyi doğrulamak için gereken inceleme yoğunluğu ile de baskı altında olup olmadığını merak ediyorum

    • Adil olmak gerekirse, birçok akademik alanda yüksek lisans ve üzeri düzeyde ayırt etmenin kendisi zaten yüksek uzmanlık gerektiriyor
      Bunun altındaki düzeylerde neyin doğru olduğu ile neyin doğru göründüğü arasındaki farkı ayırmak neredeyse imkansız olabiliyor
  • Yapay zekayı kullanırken anlamayı cargo-cult yaptığımı hissediyorum
    Bir şeyi anlamış olmanın yüzeyini yeniden üretiyor, ama gerçekten anlamak için gereken zaman ve emeği kendimden alıyorum

    • Birlikte çalıştığım bir iş arkadaşına bakınca hep aynı şeyi düşünüyorum: o kişi yapay zeka kullanım senaryosunu neredeyse tamamen kişisel Jarvis fantezisi olarak kuruyor
      Claude'a Snowflake Cortex'i, entegre kodu, belgeleri, Jira ticket'larını yedirirsen her şeyi sorabileceğine ve her şeyin çok daha iyi olacağına inanıyor
      Ama bu saplantı büyük bir çıktı üretmedi ve birkaç kez teknolojinin kusurlarını doğrudan ve sert biçimde yaşadı
      Herkes agentic workflow ve devasa şirket içi wiki vizyonundan bahsediyor ama ben yapay zekayla teslim hızını epey artırırken iddialı maceralara zaman harcamayan tarafta olduğum için sürekli sonuç üretiyorum
      Eskiden şirketin chatbot benimsenmesini eleştiren insanların, şimdi trilyonlarca .md dosyası ve skill dosyası toplayıp kendi chatbot'larını yapmak için token yakmasında bir ironi de var
      Gerçek endişe verici olan, kurumsal düzeydeki gerçek bilginin bu tür kestirmeler içinde kaybolması
      Basit örnek istekleri ya da kavram öğrenme soruları sorun değil ama mevcut araç ve altyapıyı değerlendirip dağıtım hızını 5 kat artıracak, web araştırması yapacak, kurumsal benimseme önerisi ve 5 yıllık maliyet-fayda analizi hazırlayacak bir prompt insanı kendi kendine zayıflatıyor
      Bugünlerde herkes Claude'un yazdığı önerileri etrafa fırlatıyor; biraz kendi kazı yapma ya da bir mimar veya kıdemli mühendisle birlikte keşfetme süreci atlanıyor
      Sonuçta pek çok şeyi sadece yüzeysel anlıyorlar, derine inince açıklamakta zorlanıyorlar ve yapay zekanın verdiği cevabı kesinleşmiş strateji gibi görüp sorgulatmak istemiyorlar
      Daha deneyimli insanlardan öğrenme fırsatını da bir öğrenme deneyimi olarak görmez oluyorlar
      Sonunda insan beyninin hâlâ en olağanüstü teknolojilerden biri olduğuna tekrar inanıyor ve bu devasa yapay kütüphaneyi neden ille de kendimizin dışında kurmaya çalıştığımızı sorguluyorum
    • Bence burada anlamanın cargo cult'ından çok yönetici bakış açısından cargo cult yapılıyor
      Bret Devereaux'nun Game Of Thrones eleştirisinde söylediği gibi, elit bakış açısına dayalı dünya görüşü yalnızca elitlere makul ve ütopya gibi gelir
      Gerçek emekten kopuk bu tür köpükler sonunda büyük patlar; yapay zeka yüzünden işini kaybeden kitleler ekmek bile bulamadığını söylerken onlara pasta yemelerini söylemek gibi bir tavır olursa Fransız Devrimi ölçeğinde bir tepkiyi bile hayal edebiliyorum
    • Tersinden bakarsak, yapay zeka ben anlamadan da bazı şeyleri benim yerime yapabilir
      Ama derinlemesine anlamaya çalışırken yardımcı olan bir araç olarak bakınca, yapay zeka kadar iyisi de nadir bulunur
  • Sonuçta bir şeyi anlamak onu bizzat yapmakla neredeyse aynı şey
    Anlamıyor olmak sorun değil ama o durumda, vekil göstergeler olsun ya da olmasın, sonunda sadece başkasının anlayışına güvenmek zorundasınız
    Daha az iş yapıp daha çok güvenme yönü bir noktaya kadar mümkündür ama onun ötesine geçince gelecekteki işler tehlikeye girer
    simulacrum gerçekten çok iyi bir kelime

    • Simulacrum kavramı Baudrillard'dan geliyor ve onun Simulation and Simulacra makalesi modern ekonominin neden bu kadar tuhaf olduğunu anlamada epey yardımcı oluyor
  • Sanırım bu yüzden orta kademe yöneticiler LLM yüceltilmesinin ilk müritleri gibi görünüyordu
    Orta kademe yöneticilerin, rolün gerçek ustalığından bağımsız olarak bilgi emeğini sürekli daha da soyutlamaya iten pek çok teşviki var ve bu soyut katman da sanki embedding space içinde özellikle iyi temsil ediliyor

  • Yapay zeka kodu çoğu zaman olduğundan daha kötü görünüyor
    Aşırı geveze, kafa karıştırıcı ve fallback'lerle dolu oluyor; sorun çıktığında da sayısız try/catch içinden akıp giderek stack trace'i alakasız yerlere gönderebiliyor
    Yine de saf işlevsellik açısından bakınca, dış görünüş olarak benzer insan yazımı koda göre daha iyi çalıştığı çok oldu

    • Yine de böyle tarif edilen kod hâlâ kötü koddur
      Çünkü hem insanların hem de LLM'lerin üzerinde akıl yürütmesi zordur
  • Böyle blog yazısı tarzı içeriklerin daha fazla olmasını isterim
    Uzunluğu yerinde, mesajı iyi iletiyor ve anlatısallığı da var
    Bu aralar roman uzunluğunda LLM üretimi yapay zeka çamuru çok fazla olduğu için daha da hoş geliyor

  • Sektördeki birçok kişi için bu oldukça apaçık bir gidişat gibi görünüyor
    Sorun, ortaya konan paranın çok büyük olması; bu yüzden büyük oyuncular istediklerini zorlamaya devam ediyor

  • Atom altı parçacıkların aslında tek tek evrenler olduğunu ve özelliklerinin, o evrenleri yöneten varlıkları ve onlar ortadan kalktıktan sonra bile işlemeye devam eden otomasyonu yansıttığını hayal etmeye başlıyorum
    Entropi toplayarak kendini sürekli çoğaltan otomatik makineler gibi
    Biz de şimdi bizden daha büyük bir güç yaratıyoruz ve bir noktada geri döndürülemez bir eşike ulaşabiliriz

    • Tam olarak anlamış değilim ama bu hayal ilginç geliyor
      Sayısız atom altı evren ve uygarlığın yükselip çöktüğünü ve özerk sahte-zekâ teknolojileri tarafından tüketildiğini, bunun da makro ölçekte parçacık davranışı olarak ortaya çıktığını düşündürüyor
      Şu anda biz de sonuçta bir parçacık yaratıyoruz ve kolektif seçimlerimiz, içinde bulunduğumuz üst evrene çok küçük ama anlamlı bir etki yapıyor olabilir
  • Birinin çıktısı her zaman bir başkasının girdisi olur
    LLM ile miktarı artırırsanız, sonraki kişi de bunu yine LLM ile parse edip kendi çıktısını üretir
    Bu böyle sürer ve nihai tüketici itiraz ettiğinde, hatanın tam olarak nerede başladığını artık kimse belirleyemez

    • Tabii o noktada da son tüketicinin yanlış kullandığı söylenecektir
      Çünkü göz önünde sadece son tüketici vardır, geri kalan herkes ise yedi kat proxy'nin arkasına saklanmıştır