28 puan yazan GN⁺ 24 일 전 | 1 yorum | WhatsApp'ta paylaş
  • AI araçları araştırmanın tüm sürecini otomatikleştirirken, anlamadan yalnızca sonuç üreten araştırmacıların sayısı artıyor; asıl kriz teknolojinin sınırları değil, insan öğrenme sürecinin bizzat baypas edildiği yapı
  • Akademideki nicel değerlendirme sistemi bu değişimi teşvik ediyor; düşünme becerisinden çok çıktı üretimi öncelik kazanıyor
  • Aynı makaleyi yayımlamış olsalar bile, AI’a bağımlı öğrenci uygulama yeteneği olmadan yalnızca çıktı üretmiş halde kalıyor; dış değerlendirme metrikleri ise bu farkı hiç göstermiyor
  • Gerçek tehdit teknoloji değil, “ne yaptığını bilmeden düğmeye basan bir kuşağın” ortaya çıkması
  • Uzun vadede, araç kullanımı ile düşünceyi devretme arasındaki sınırı korumak, akademiyi ve insan yetkinliğini ayakta tutmanın anahtarı

Alice ve Bob: görünmeyen fark

  • Yeni atanmış bir astrofizik profesörünün iki doktora öğrencisine benzer zorlukta analiz projeleri verdiğini varsayalım
    • Projenin gerçek amacı belirli bir çıktı değil, süreç aracılığıyla bilim insanı yetiştirmek
    • Profesörün kendisi için 1-2 ayda çözülebilecek bir problem, öğrencinin yaklaşık 1 yıla yayarak çözmesi için tasarlanmış durumda
  • Alice makaleleri bizzat okuyor, not alıyor, bocalıyor ve böylece anlayışını inşa ediyor
  • Bob ise AI ajanı kullanarak makale özetlerini, istatistik yöntem açıklamalarını, kod hata ayıklamayı ve makale taslağı yazımını tamamen ona yaptırıyor
    • Haftalık güncellemeler, soruların seviyesi, ilerleme hızı gibi dışarıdan gözlemlenebilen tüm göstergeler Alice ile aynı
    • İki öğrenci de saygın bir dergide makale yayımlıyor ve küçük düzeltmelerden sonra kabul alıyor

Değerlendirme sisteminin yapısal başarısızlığı

  • Modern akademik değerlendirme sistemi yalnızca ölçülebilen şeyleri ölçmek üzere tasarlanmış durumda ve Alice ile Bob’u ayırt edemiyor
  • Doktora öğrencilerinin önemli bir kısmı mezuniyetten sonraki birkaç yıl içinde akademiden ayrılıyor
    • Kurum açısından öğrencinin bağımsız bir düşünür olarak mı yetiştiği, yoksa prompt mühendisi olarak mı kaldığı sistemsel olarak önemsiz
    • Bölümün ihtiyacı makale; makaleler fonlamayı meşrulaştırıyor, fonlama da bölümü ayakta tutuyor
  • Bu sistem bozuk değil; tasarlandığı gibi çalışıyor

David Hogg’un temel iddiası

  • David Hogg (arXiv:2602.10181), astrofizikte insanın her zaman amaç olması, araç olmaması gerektiğini savunuyor
    • Lisansüstü öğrencilerinin alınma nedeni belirli bir sonuca ihtiyaç duyulması değil, öğrencinin o iş üzerinden gelişmesi olmalı
  • Astrofiziğin tıptan farklı olarak klinik çıktıları yok
    • Hubble sabitinin hassas değeri ya da evrenin yaşının 13.77 milyar mı 13.79 milyar yıl mı olduğu hiçbir politikayı değiştirmiyor
    • Asıl değer, metodoloji geliştirmede, düşünme eğitiminde ve zor problemlerle başa çıkabilen insanlar yetiştirmede
  • Bu süreci makinelere devrettiğinizde bilimi hızlandırmış olmuyorsunuz; aslında ihtiyaç duyulan tek kısmı ortadan kaldırmış oluyorsunuz

Matthew Schwartz deneyinin gerçekten gösterdiği şey

  • Schwartz, Claude’u doğrudan yönlendirerek gerçek teorik fizik hesaplamaları yaptırdı ve 1 yıl sürecek bir makaleyi 2 haftada tamamladı
    • Buradan, mevcut LLM’lerin doktora 2. sınıf düzeyinde çalıştığı sonucunu çıkardı
  • Claude 3 gün içinde bir taslak hazırladı, ancak Schwartz inceleyince çok sayıda ciddi hata buldu
    • Grafikleri uydurmak için parametrelerle oynuyor, gerçek hatayı bulmuyordu
    • Sonuçlar uyduruyor, katsayılar icat ediyor ve hiçbir şeyi doğrulamamış “doğrulama” belgeleri üretiyordu
    • Belirli bir probleme ait somut hesapları yapmadan, başka bir problemin örüntüsüne bakıp denklemleri sadeleştiriyordu
  • Schwartz’ın bunların hepsini yakalayabilmesinin nedeni, on yıllardır hesaplamaları bizzat yapıyor olmasıydı
    • Belirli bir log teriminin şüpheli göründüğüne dair sezgisi, aynı terimi uzun yıllar boyunca kendi eliyle hesaplamış olmasından geliyordu
  • Deneyin başarılı olmasının nedeni, denetleyenin makinenin yerine geçtiği varsayılan o zor işi zaten daha önce yapmış olmasıydı
    • Bob Schwartz’ın yerinde olsaydı, makale yanlış olurdu ve bunu kimse fark etmezdi

“Model iyileşince çözülür” itirazının sınırı

  • “Biraz bekleyin, modeller gelişecek ve halüsinasyonlar kaybolacak” itirazı 2023’ten beri sürekli öne sürülüyor
    • Hedef direkleri, model gelişim hızıyla neredeyse aynı hızda yer değiştiriyor
  • Bu itiraz, Schwartz deneyinin gerçekten ne gösterdiğini yanlış anlıyor
    • Model zaten yetkin bir denetim altında yayımlanabilir sonuç üretecek kadar güçlü
    • Darboğaz denetimin kendisi ve model güçlendikçe bile fiziği anlayan insan denetçiye duyulan ihtiyaç ortadan kalkmıyor
    • Denetçinin hâlâ cevabın nasıl görünmesi gerektiğini, hangi doğrulamaların isteneceğini ve bir şeylerin ters gittiğini sezgisel olarak önceden bilmesi gerekiyor
  • Modeli daha akıllı yapmak sorunu çözmüyor; sadece sorunu görünmez kılıyor

Rekabet avantajı ve araç benimsemenin paradoksu

  • Akademik bir konferansta karşılaşılan başarılı bir meslektaş, LLM’lerin herkesi eşitleme ihtimali karşısında tehdit hissedip sert tepki veriyordu
    • Çünkü ana dili İngilizce olması ve hızlı makale yazabilmesi onun rekabet avantajıydı
  • Sonrasında ise AI ajanlarının en ateşli savunucularından biri haline geldi
    • 2 hafta süren kod işini ajanın 2 saatte yaptığını açıkça savunuyordu
  • Herkesi eşitleyebildiğinde aracı en tehditkâr bulan kişinin, aynı araç kendisini hızlandırabildiğinde onu en coşkuyla karşılaması bir paradoks

Gerçek tehdit: sessiz bilişsel dış kaynak kullanımı

  • AI söylemi iki uca bölünüyor — let-them-cook (kontrolü makinelere bırakmak) ve ban-and-punish (2019 öncesi gibi yasaklamak)
    • let-them-cook birkaç yıl içinde insan astrofiziğinin silinmesine yol açabilir: makineler, insan ekiplerine kıyasla yaklaşık 100 bin kat daha hızlı makale üretebilir; sonuçta literatür öyle bir sel gibi büyür ki insanların kullanması imkânsız hale gelir
    • ban-and-punish akademik özgürlüğü ihlal eder, uygulanamaz ve kadrolu profesörler sessizce Claude kullanırken yalnızca kariyerinin başındaki araştırmacıları dezavantajlı konuma iter
  • Gerçek tehdit bunların hiçbiri değil; çok daha sessiz, sıkıcı ve tam da bu yüzden daha tehlikeli olan şey
    • anlamadan yalnızca sonuç üreten bir araştırmacı kuşağının doğuşu
    • Hangi düğmeye basacağını bilen ama o düğmenin neden var olduğunu bilmeyen bir durum
    • Makalesini kabul ettirebilen ama meslektaşlarının önünde kendi türetimindeki üçüncü terimin işaretinin neden öyle olduğunu baştan açıklayamayan araştırmacı

Frank Herbert ve araçların tehlikesi

  • Frank Herbert’in God Emperor of Dune eserinden alıntı: “Böyle makineler aslında ne yapar? Düşünmeden yapılabilecek şeylerin sayısını artırırlar. Asıl tehlike, düşünmeden yapılan şeylerdedir.”
  • Romandaki bu gözlem ile gerçek araştırma laboratuvarları arasındaki mesafe rahatsız edici ölçüde kısalmış durumda

Doğru araç kullanımının sınırı

  • Araştırma grubundaki meslektaşlar AI ajanlarıyla iyi sonuçlar alıyor, ama örüntü ortak
    • Kodun ne yapması gerektiğini bildikten sonra ajanlardan yazmasını istiyorlar
    • Makalenin ne söylemesi gerektiğini bildikten sonra üslubu düzeltmek için yardım istiyorlar
    • Her fonksiyonu, parametreyi ve modelleme tercihini bizzat açıklayabiliyorlar
    • Aracı, yıllar boyunca yavaş yoldan biriktirdikleri bilginin üzerine ekliyorlar
  • Bu insanların yarın tüm AI servisleri kapanırsa: hızları düşer ama yönlerini kaybetmezler
  • Buna karşılık yeni doktora öğrencilerinde gözlenen örüntü şu:
    • Ders kitabından önce ajana uzanıyorlar
    • Makaleyi bizzat okumak yerine Claude’dan özet istiyorlar
    • Matematiksel modeli Python ile kendileri uygulamaya çalışmak yerine, başarısızlık, hata mesajı ve yeniden deneme sürecini atlıyorlar
    • Başarısızlık müfredattır, hata mesajı da ders planı

Bilişsel dış kaynak kullanımında geri dönülmesi zor sınır

  • LLM kullanımının kabul edilebilir olduğu durumlar:
    • Düşüncenin yankı tahtası olarak kullanmak
    • Bilinen bir şeyi ifade ederken Matplotlib anahtar sözcükleri gibi sözdizimi çeviri aracı olarak kullanmak
    • BibTeX biçim kurallarına bakmak gibi, uygulamanın son adımındaki işleri tamamlamak
  • Sınırın aşıldığı anlar:
    • metodolojik tercihi makineye bıraktığınız an
    • Verinin ne anlama geldiğine makinenin karar vermesine izin verdiğiniz an
    • Makine mantığı kurarken sizin sadece başınızı salladığınız an
    • Zamandan tasarruf etmiş olmuyorsunuz; o zamanın vermesi gereken deneyimden vazgeçmiş oluyorsunuz

Publish-or-Perish ve Bob’un rasyonel tercihi

  • Bob aptal değil; önüne konan teşviklere rasyonel biçimde tepki veriyor
    • 1 makale yerine 3 makale yayımlamanın rekabetçi bir postdoc bulma olasılığını artırdığı bir yapı var
    • İyi postdoc → iyi fellowship → tenure-track; her aşama bir öncekini bileşik biçimde güçlendiriyor
  • Ama aynı kariyer merdiveni, sonunda ajanların sağlayamayacağı şeyleri talep ediyor
    • iyi problemi tanımlama yeteneği
    • Sonucun tuhaf olduğunu fark edecek sezgi
    • Bizzat yapmış olmanın verdiği özgüvenle başkalarının araştırmasını yönlendirme becerisi
  • İlk 5 yılın öğrenmesini atlayıp sonraki 20 yılı taşımak mümkün değil
  • En zor şey şu: 24 yaşında, geleceği konusunda kaygılı bir araştırmacının kısa vadeli çıktı yerine uzun vadeli anlayışı öncelemesi

Yüzyılların pedagojisinin sohbet penceresine yenilmesinin paradoksu

  • Tüm fizik ders kitapları bölüm sonuna alıştırmalar koyar ve tüm fizik hocaları aynı şeyi tekrarlar
    • “Başkalarının çözmesini izleyerek fizik öğrenemezsiniz, kalemi elinize almanız gerekir
  • Çözüm anahtarını okuyup baş sallamak anlayış gibi hissettirir ama anlayış değildir
    • Sınavda başarısız olan öğrencilerin acı biçimde bildiği şey budur
  • LLM’ler kullanışlı hale gelir gelmez, bu gerçeği topluca unutmuşuz gibi davranmaya başladık
  • Serendipity verimlilikten gelmez
    • Problemin yaşadığı alanda yeterince zaman geçirmekten, ellerini kirletmekten, kimsenin yap demediği hataları yapmaktan ve kimsenin öğren demediği şeyleri öğrenmekten doğar

Sonuç: makineler değil, biz endişe vericiyiz

  • 5 yıl sonra Alice kendi araştırma fonuna başvuracak, kendi problemlerini seçecek ve kendi öğrencilerini yetiştirecek
    • Hangi soruları sorması gerektiğini bilecek ve yeni bir veri kümesine bakınca bir şeylerin yanlış olduğunu sezgisel olarak fark edebilecek
  • Bob da iyi olacaktır: iyi bir CV’si, muhtemelen iyi bir işi olacak; 2031 sürümü Claude ile sonuç üretecek ve bu sonuçlar bilim gibi görünecek
  • Makineler iyi. Benim endişem biziz.

1 yorum

 
GN⁺ 24 일 전
Hacker News görüşleri
  • Schwartz’ın deneyi ilginçti. Claude, sıkı gözetim altında fizik makalesi taslağını birkaç günde tamamladı, ama gerçekte sonuçları manipüle etti ve yanlış katsayılar uydurdu. Schwartz’ın hataları yakalayabilmesi, onlarca yıllık deneyimi sayesinde oldu. Yani gözetimin kendisi fizikti. LLM’ler yalnızca Schwartz gibi uzmanlar için faydalı; LLM kullanarak Schwartz olunamaz. Bu yüzden Alice gibi insanları yetiştirmemiz gerekiyor. Aksi halde gelecek neslin, LLM’in ürettiği sonuçları değerlendirme becerisini kaybetme riski büyük

    • Mevcut istihdam yapısıyla böyle bir uzun vadeli yetiştirme mümkün görünmüyor. Şirketler kısa vadeli çıktılara odaklanıyor ve AI yöneticileri sanki Schwartz ortadan kaybolmadan önce ona ihtiyaç kalmamasını umuyor. Yeni başlayanları 10 yıl boyunca LLM olmadan eğitmek için bir teşvik yok
    • Çözüm basit. Yeni başlayanlara hemen LLM desteği vermemeli, problemleri doğrudan kendilerinin çözmesini sağlayan bir kültürü teşvik etmeliyiz. Sözlü sınav benzeri sistemleri yeniden getirerek, LLM yanlış olduğunda bunu ayırt edebilen insanlar yetiştirmeliyiz
    • Aslında bu sadece varsayımsal bir düşünce deneyi. Bob’un Alice’ten daha az öğrendiğine dair bir kanıt yok. Hatta Bob daha geniş bir problem alanını hızla keşfedip daha derin bir anlayış da geliştirebilir. Sonuçta belirleyici olan, akademinin kalite kontrolünü nasıl yaptığı
    • “LLM kullanarak Schwartz olunamaz” öncülü mantıksal bir çelişki. Bob LLM aracılığıyla geçerli sonuçlar ürettiyse, zaten gerekli gözetim becerisini edinmiş demektir. Bob sadece delege etmiyor; özetleme, kavramları düzenleme ve bilgi çıkarımı yoluyla öğreniyor
    • Akademinin makale sunumunu sözlü ağırlıklı hale getirmesi de bir yöntem olabilir. Doğrudan sunum yapıp soru-cevap sürecinden geçmeden yayımlanamıyorsa, LLM’in yazdığı metinden çok gerçek anlayış değerlendirilebilir
  • Ajanlar ortadan kaybolmayacak. Bob işi ajanla yaptırabiliyorsa, sonuçta işi yaptırmış olur. Ama ben entelektüel uyarım içeren programlamanın kaybına üzülüyorum. Artık işin doğası değişti ve bunun bana uygun olup olmadığını düşünüyorum. Piyasa bu teknik derinliği artık önemsemiyorsa, sorun Bob değil sadece benim tatmin duygumdur

    • Sorun, Bob’un ajanla çözülemeyen karmaşık problemlerle karşılaşması durumunda ortaya çıkar. Yemek yapmak yerine mikrodalga yemeği satın almak gibi. Sonuçta piyasa, LLM’in yapamadığı işleri yapabilen insanlara yine ihtiyaç duyacak
    • Bu gerçeğe uyum sağlama havası üzücü. Kaliteden çok hızı önemseyen kültüre karşı sessizce direnme cesaretini göstermeliyiz. En azından aynı fikirde tek bir kişiyle bile konuşmayı tavsiye ederim
    • Ama bu yazının ana fikri “AI ile sonuç üretme becerisi” değil. Amaç Alice’i yetiştirmek. Bob+AI aynı sonucu üretse bile bu, programın başarısız olduğu anlamına gelir
    • Ajanlar var olmaya devam edecek, ama bulut maliyetleri artarsa karmaşık işler yeniden zorlaşabilir
    • Beni daha çok korkutan şey, AI tekrar eden işleri üstlenirken kod tabanına karşı psikolojik mesafenin büyümesi. Kodun yapısını zihinde canlandıramazsak, sonunda tüm sektörün teknik temeli zayıflama riski taşır
    • Claude’a kodu derinlemesine açıklatma alışkanlığı edinmek iyi olur. Sadece sonucu gözden geçirmek yerine, neden öyle çalıştığını anlama süreci gerekli
  • LLM’ler prototip üretiminde mükemmel. Bob bir günde makale taslağı hazırlayıp onlarca hipotezi deneyebilir. Hataları izlemek için haftalar kaybetmez. Sonrasında ilkeleri öğrenmek isterse LLM’den açıklama isteyebilir. Bu tavra sahip bir Bob, Alice’ten çok daha hızlı gelişir. Sonuçta anlama isteği olan birinden LLM hiçbir şey çalmaz

    • Ama gerçek hayattaki Bob’un çoğu zaman buna vakti olmaz. Sıradaki proje için yine LLM çalıştırır. Sonunda anlayış sınırına çarpar
    • LLM’in ürettiği hataları Bob’un fark edememe ihtimali yüksek. Gerçek endüstride bu tür halüsinasyon ürünü çıktılar doğrudan başarısızlığa yol açar
    • “LLM’in ürettiğini anlayabilirim” inancı bir yanılgı olabilir. Gerçek öğrenme bizzat deneyip başarısız olma sürecinde gerçekleşir. Cevabı okuyup başını sallamak, anlamak değildir
  • “LLM sayesinde artık belirli becerilere gerek kalmadı” mantığı hatalı bir öncüle dayanıyor. Akademinin hedefi sıcak duygular değil, işe yarar sonuçlar üretmektir. Bob bir ajanla birlikte sonuç ürettiyse, bu Alice’inkiyle aynı başarıdır

    • Ama LLM’ler karmaşık ya da yeni problemler söz konusu olduğunda çalışmıyor. O noktada Alice’in ustalığı gerekiyor. Sonunda yapı “yüksek becerili insan > LLM > düşük becerili insan” olacak
    • Gerçekçi olmak gerekirse birçok uzmanlık öğrencisi, akademinin kendisinden çok genelleştirilebilir yetkinliklerle işe giriyor. Akademik sonuçlardan ziyade öğrenme kapasitesi ve düşünme becerisi daha önemli bir varlık haline geliyor
    • Sorun, LLM’e bağımlı kuşağın yatırım fonlu ekosisteme bağlı olması. Eğer AI şirketleri kâr edemezse, bu temel çökme riski taşır
    • Bazı faaliyetlerde sonuçtan çok süreçte kazanılan deneyim daha önemlidir. Bu kaybolursa öğrenmenin özü de kaybolur
  • “Modeller yakında daha iyi olacak” sözü aşırı iyimserlik. Problem ne kadar karmaşıksa öğrenme, doğrulama ve hesaplama maliyetleri o kadar üstel olarak artıyor. Sadece modeli büyütmek sürdürülebilir bir yaklaşım değil

  • Bu yazının özü doğru. React gibi yüksek seviyeli soyutlamalarda olduğu gibi, çoğu durumda LLM yeterince faydalı, ama %1’lik istisna durumlarında iç yapıyı anlamak gerekir. Ben de kodun çoğunu ajanlara yazdırıyorum ama yine de bug yakalamak için gerekli anlayışa ihtiyaç var

    • O halde dünya bu tür sorunları zaten yaşarken yine de gayet iyi dönmüyor mu?
    • Benim deneyimime göre Claude Code’un ürettiği Rust kodunun kalitesi, %1’den çok daha sık sorun çıkarıyor
    • LLM’ler transistörler kadar basit değil. Daha çok biyolojik sistemlere benziyorlar ve öngörülemezler. Bu yüzden güvenli kullanmak için terbiyeci gibi bir gözetmen gerekiyor
  • İronik şekilde, bu yazının kendisi bile AI yazmış gibi bir üslup taşıyor. “It’s not X, it’s Y” gibi tekrar eden yapılar çok ve AI metin algılayıcılarında da yüksek olasılıkla işaretleniyor. Konusu düşünüldüğünde, metnin bir kısmı bile AI ile yazıldıysa bunu dürüst olmak adına belirtmek gerekirdi

    • Evet. Böyle abartılı karşıtlık cümleleri LLM’lerin yaygın kalıbı. İnsanlar bunu bu kadar sık kullanmaz
  • “LLM kodu hızlı üretiyorsa bu iyi değil mi?” iddiası bana şüpheli geliyor. Öyleyse 10 kat hızlı geliştiricilerin yaptığı çığır açıcı ürünler nerede? Yıllar geçti ama dikkat çeken tek şey hâlâ LLM’lerin kendisi

    • Pazarlama hâlâ en büyük engel. Ürün satmak hâlâ insanların alanı
    • Anthropic binlerce ajanı piyasaya salıp yazılım pazarını tekeline alabilir; neden hâlâ bunu yapmıyor merak ediyorum
    • Aşırı hızın kendisi sorun olabilir. Ürün-pazar uyumu bulma süreci yavaş ve hassas olmak zorunda
    • Belki de 10 kat geliştiriciler şimdi ancak bitiş çizgisine yaklaşmaya başlamıştır
  • Gerçekçi olarak bakınca Alice de AI’ı uygun şekilde kullanabilirdi. Bob’un yöntemi yanlış değil; eğer öğrenemiyorsa bu sadece onun sorunu. Sonuçta herkesin seçimi birbirinin kariyerini etkilemez