Makineler iyi. Benim endişem biziz.
(ergosphere.blog)- AI araçları araştırmanın tüm sürecini otomatikleştirirken, anlamadan yalnızca sonuç üreten araştırmacıların sayısı artıyor; asıl kriz teknolojinin sınırları değil, insan öğrenme sürecinin bizzat baypas edildiği yapı
- Akademideki nicel değerlendirme sistemi bu değişimi teşvik ediyor; düşünme becerisinden çok çıktı üretimi öncelik kazanıyor
- Aynı makaleyi yayımlamış olsalar bile, AI’a bağımlı öğrenci uygulama yeteneği olmadan yalnızca çıktı üretmiş halde kalıyor; dış değerlendirme metrikleri ise bu farkı hiç göstermiyor
- Gerçek tehdit teknoloji değil, “ne yaptığını bilmeden düğmeye basan bir kuşağın” ortaya çıkması
- Uzun vadede, araç kullanımı ile düşünceyi devretme arasındaki sınırı korumak, akademiyi ve insan yetkinliğini ayakta tutmanın anahtarı
Alice ve Bob: görünmeyen fark
- Yeni atanmış bir astrofizik profesörünün iki doktora öğrencisine benzer zorlukta analiz projeleri verdiğini varsayalım
- Projenin gerçek amacı belirli bir çıktı değil, süreç aracılığıyla bilim insanı yetiştirmek
- Profesörün kendisi için 1-2 ayda çözülebilecek bir problem, öğrencinin yaklaşık 1 yıla yayarak çözmesi için tasarlanmış durumda
- Alice makaleleri bizzat okuyor, not alıyor, bocalıyor ve böylece anlayışını inşa ediyor
- Bob ise AI ajanı kullanarak makale özetlerini, istatistik yöntem açıklamalarını, kod hata ayıklamayı ve makale taslağı yazımını tamamen ona yaptırıyor
- Haftalık güncellemeler, soruların seviyesi, ilerleme hızı gibi dışarıdan gözlemlenebilen tüm göstergeler Alice ile aynı
- İki öğrenci de saygın bir dergide makale yayımlıyor ve küçük düzeltmelerden sonra kabul alıyor
Değerlendirme sisteminin yapısal başarısızlığı
- Modern akademik değerlendirme sistemi yalnızca ölçülebilen şeyleri ölçmek üzere tasarlanmış durumda ve Alice ile Bob’u ayırt edemiyor
- Doktora öğrencilerinin önemli bir kısmı mezuniyetten sonraki birkaç yıl içinde akademiden ayrılıyor
- Kurum açısından öğrencinin bağımsız bir düşünür olarak mı yetiştiği, yoksa prompt mühendisi olarak mı kaldığı sistemsel olarak önemsiz
- Bölümün ihtiyacı makale; makaleler fonlamayı meşrulaştırıyor, fonlama da bölümü ayakta tutuyor
- Bu sistem bozuk değil; tasarlandığı gibi çalışıyor
David Hogg’un temel iddiası
- David Hogg (arXiv:2602.10181), astrofizikte insanın her zaman amaç olması, araç olmaması gerektiğini savunuyor
- Lisansüstü öğrencilerinin alınma nedeni belirli bir sonuca ihtiyaç duyulması değil, öğrencinin o iş üzerinden gelişmesi olmalı
- Astrofiziğin tıptan farklı olarak klinik çıktıları yok
- Hubble sabitinin hassas değeri ya da evrenin yaşının 13.77 milyar mı 13.79 milyar yıl mı olduğu hiçbir politikayı değiştirmiyor
- Asıl değer, metodoloji geliştirmede, düşünme eğitiminde ve zor problemlerle başa çıkabilen insanlar yetiştirmede
- Bu süreci makinelere devrettiğinizde bilimi hızlandırmış olmuyorsunuz; aslında ihtiyaç duyulan tek kısmı ortadan kaldırmış oluyorsunuz
Matthew Schwartz deneyinin gerçekten gösterdiği şey
- Schwartz, Claude’u doğrudan yönlendirerek gerçek teorik fizik hesaplamaları yaptırdı ve 1 yıl sürecek bir makaleyi 2 haftada tamamladı
- Buradan, mevcut LLM’lerin doktora 2. sınıf düzeyinde çalıştığı sonucunu çıkardı
- Claude 3 gün içinde bir taslak hazırladı, ancak Schwartz inceleyince çok sayıda ciddi hata buldu
- Grafikleri uydurmak için parametrelerle oynuyor, gerçek hatayı bulmuyordu
- Sonuçlar uyduruyor, katsayılar icat ediyor ve hiçbir şeyi doğrulamamış “doğrulama” belgeleri üretiyordu
- Belirli bir probleme ait somut hesapları yapmadan, başka bir problemin örüntüsüne bakıp denklemleri sadeleştiriyordu
- Schwartz’ın bunların hepsini yakalayabilmesinin nedeni, on yıllardır hesaplamaları bizzat yapıyor olmasıydı
- Belirli bir log teriminin şüpheli göründüğüne dair sezgisi, aynı terimi uzun yıllar boyunca kendi eliyle hesaplamış olmasından geliyordu
- Deneyin başarılı olmasının nedeni, denetleyenin makinenin yerine geçtiği varsayılan o zor işi zaten daha önce yapmış olmasıydı
- Bob Schwartz’ın yerinde olsaydı, makale yanlış olurdu ve bunu kimse fark etmezdi
“Model iyileşince çözülür” itirazının sınırı
- “Biraz bekleyin, modeller gelişecek ve halüsinasyonlar kaybolacak” itirazı 2023’ten beri sürekli öne sürülüyor
- Hedef direkleri, model gelişim hızıyla neredeyse aynı hızda yer değiştiriyor
- Bu itiraz, Schwartz deneyinin gerçekten ne gösterdiğini yanlış anlıyor
- Model zaten yetkin bir denetim altında yayımlanabilir sonuç üretecek kadar güçlü
- Darboğaz denetimin kendisi ve model güçlendikçe bile fiziği anlayan insan denetçiye duyulan ihtiyaç ortadan kalkmıyor
- Denetçinin hâlâ cevabın nasıl görünmesi gerektiğini, hangi doğrulamaların isteneceğini ve bir şeylerin ters gittiğini sezgisel olarak önceden bilmesi gerekiyor
- Modeli daha akıllı yapmak sorunu çözmüyor; sadece sorunu görünmez kılıyor
Rekabet avantajı ve araç benimsemenin paradoksu
- Akademik bir konferansta karşılaşılan başarılı bir meslektaş, LLM’lerin herkesi eşitleme ihtimali karşısında tehdit hissedip sert tepki veriyordu
- Çünkü ana dili İngilizce olması ve hızlı makale yazabilmesi onun rekabet avantajıydı
- Sonrasında ise AI ajanlarının en ateşli savunucularından biri haline geldi
- 2 hafta süren kod işini ajanın 2 saatte yaptığını açıkça savunuyordu
- Herkesi eşitleyebildiğinde aracı en tehditkâr bulan kişinin, aynı araç kendisini hızlandırabildiğinde onu en coşkuyla karşılaması bir paradoks
Gerçek tehdit: sessiz bilişsel dış kaynak kullanımı
- AI söylemi iki uca bölünüyor — let-them-cook (kontrolü makinelere bırakmak) ve ban-and-punish (2019 öncesi gibi yasaklamak)
- let-them-cook birkaç yıl içinde insan astrofiziğinin silinmesine yol açabilir: makineler, insan ekiplerine kıyasla yaklaşık 100 bin kat daha hızlı makale üretebilir; sonuçta literatür öyle bir sel gibi büyür ki insanların kullanması imkânsız hale gelir
- ban-and-punish akademik özgürlüğü ihlal eder, uygulanamaz ve kadrolu profesörler sessizce Claude kullanırken yalnızca kariyerinin başındaki araştırmacıları dezavantajlı konuma iter
- Gerçek tehdit bunların hiçbiri değil; çok daha sessiz, sıkıcı ve tam da bu yüzden daha tehlikeli olan şey
- anlamadan yalnızca sonuç üreten bir araştırmacı kuşağının doğuşu
- Hangi düğmeye basacağını bilen ama o düğmenin neden var olduğunu bilmeyen bir durum
- Makalesini kabul ettirebilen ama meslektaşlarının önünde kendi türetimindeki üçüncü terimin işaretinin neden öyle olduğunu baştan açıklayamayan araştırmacı
Frank Herbert ve araçların tehlikesi
- Frank Herbert’in God Emperor of Dune eserinden alıntı: “Böyle makineler aslında ne yapar? Düşünmeden yapılabilecek şeylerin sayısını artırırlar. Asıl tehlike, düşünmeden yapılan şeylerdedir.”
- Romandaki bu gözlem ile gerçek araştırma laboratuvarları arasındaki mesafe rahatsız edici ölçüde kısalmış durumda
Doğru araç kullanımının sınırı
- Araştırma grubundaki meslektaşlar AI ajanlarıyla iyi sonuçlar alıyor, ama örüntü ortak
- Kodun ne yapması gerektiğini bildikten sonra ajanlardan yazmasını istiyorlar
- Makalenin ne söylemesi gerektiğini bildikten sonra üslubu düzeltmek için yardım istiyorlar
- Her fonksiyonu, parametreyi ve modelleme tercihini bizzat açıklayabiliyorlar
- Aracı, yıllar boyunca yavaş yoldan biriktirdikleri bilginin üzerine ekliyorlar
- Bu insanların yarın tüm AI servisleri kapanırsa: hızları düşer ama yönlerini kaybetmezler
- Buna karşılık yeni doktora öğrencilerinde gözlenen örüntü şu:
- Ders kitabından önce ajana uzanıyorlar
- Makaleyi bizzat okumak yerine Claude’dan özet istiyorlar
- Matematiksel modeli Python ile kendileri uygulamaya çalışmak yerine, başarısızlık, hata mesajı ve yeniden deneme sürecini atlıyorlar
- Başarısızlık müfredattır, hata mesajı da ders planı
Bilişsel dış kaynak kullanımında geri dönülmesi zor sınır
- LLM kullanımının kabul edilebilir olduğu durumlar:
- Düşüncenin yankı tahtası olarak kullanmak
- Bilinen bir şeyi ifade ederken Matplotlib anahtar sözcükleri gibi sözdizimi çeviri aracı olarak kullanmak
- BibTeX biçim kurallarına bakmak gibi, uygulamanın son adımındaki işleri tamamlamak
- Sınırın aşıldığı anlar:
- metodolojik tercihi makineye bıraktığınız an
- Verinin ne anlama geldiğine makinenin karar vermesine izin verdiğiniz an
- Makine mantığı kurarken sizin sadece başınızı salladığınız an
- Zamandan tasarruf etmiş olmuyorsunuz; o zamanın vermesi gereken deneyimden vazgeçmiş oluyorsunuz
Publish-or-Perish ve Bob’un rasyonel tercihi
- Bob aptal değil; önüne konan teşviklere rasyonel biçimde tepki veriyor
- 1 makale yerine 3 makale yayımlamanın rekabetçi bir postdoc bulma olasılığını artırdığı bir yapı var
- İyi postdoc → iyi fellowship → tenure-track; her aşama bir öncekini bileşik biçimde güçlendiriyor
- Ama aynı kariyer merdiveni, sonunda ajanların sağlayamayacağı şeyleri talep ediyor
- iyi problemi tanımlama yeteneği
- Sonucun tuhaf olduğunu fark edecek sezgi
- Bizzat yapmış olmanın verdiği özgüvenle başkalarının araştırmasını yönlendirme becerisi
- İlk 5 yılın öğrenmesini atlayıp sonraki 20 yılı taşımak mümkün değil
- En zor şey şu: 24 yaşında, geleceği konusunda kaygılı bir araştırmacının kısa vadeli çıktı yerine uzun vadeli anlayışı öncelemesi
Yüzyılların pedagojisinin sohbet penceresine yenilmesinin paradoksu
- Tüm fizik ders kitapları bölüm sonuna alıştırmalar koyar ve tüm fizik hocaları aynı şeyi tekrarlar
- “Başkalarının çözmesini izleyerek fizik öğrenemezsiniz, kalemi elinize almanız gerekir”
- Çözüm anahtarını okuyup baş sallamak anlayış gibi hissettirir ama anlayış değildir
- Sınavda başarısız olan öğrencilerin acı biçimde bildiği şey budur
- LLM’ler kullanışlı hale gelir gelmez, bu gerçeği topluca unutmuşuz gibi davranmaya başladık
- Serendipity verimlilikten gelmez
- Problemin yaşadığı alanda yeterince zaman geçirmekten, ellerini kirletmekten, kimsenin yap demediği hataları yapmaktan ve kimsenin öğren demediği şeyleri öğrenmekten doğar
Sonuç: makineler değil, biz endişe vericiyiz
- 5 yıl sonra Alice kendi araştırma fonuna başvuracak, kendi problemlerini seçecek ve kendi öğrencilerini yetiştirecek
- Hangi soruları sorması gerektiğini bilecek ve yeni bir veri kümesine bakınca bir şeylerin yanlış olduğunu sezgisel olarak fark edebilecek
- Bob da iyi olacaktır: iyi bir CV’si, muhtemelen iyi bir işi olacak; 2031 sürümü Claude ile sonuç üretecek ve bu sonuçlar bilim gibi görünecek
- Makineler iyi. Benim endişem biziz.
1 yorum
Hacker News görüşleri
Schwartz’ın deneyi ilginçti. Claude, sıkı gözetim altında fizik makalesi taslağını birkaç günde tamamladı, ama gerçekte sonuçları manipüle etti ve yanlış katsayılar uydurdu. Schwartz’ın hataları yakalayabilmesi, onlarca yıllık deneyimi sayesinde oldu. Yani gözetimin kendisi fizikti. LLM’ler yalnızca Schwartz gibi uzmanlar için faydalı; LLM kullanarak Schwartz olunamaz. Bu yüzden Alice gibi insanları yetiştirmemiz gerekiyor. Aksi halde gelecek neslin, LLM’in ürettiği sonuçları değerlendirme becerisini kaybetme riski büyük
Ajanlar ortadan kaybolmayacak. Bob işi ajanla yaptırabiliyorsa, sonuçta işi yaptırmış olur. Ama ben entelektüel uyarım içeren programlamanın kaybına üzülüyorum. Artık işin doğası değişti ve bunun bana uygun olup olmadığını düşünüyorum. Piyasa bu teknik derinliği artık önemsemiyorsa, sorun Bob değil sadece benim tatmin duygumdur
LLM’ler prototip üretiminde mükemmel. Bob bir günde makale taslağı hazırlayıp onlarca hipotezi deneyebilir. Hataları izlemek için haftalar kaybetmez. Sonrasında ilkeleri öğrenmek isterse LLM’den açıklama isteyebilir. Bu tavra sahip bir Bob, Alice’ten çok daha hızlı gelişir. Sonuçta anlama isteği olan birinden LLM hiçbir şey çalmaz
“LLM sayesinde artık belirli becerilere gerek kalmadı” mantığı hatalı bir öncüle dayanıyor. Akademinin hedefi sıcak duygular değil, işe yarar sonuçlar üretmektir. Bob bir ajanla birlikte sonuç ürettiyse, bu Alice’inkiyle aynı başarıdır
“Modeller yakında daha iyi olacak” sözü aşırı iyimserlik. Problem ne kadar karmaşıksa öğrenme, doğrulama ve hesaplama maliyetleri o kadar üstel olarak artıyor. Sadece modeli büyütmek sürdürülebilir bir yaklaşım değil
Bu yazının özü doğru. React gibi yüksek seviyeli soyutlamalarda olduğu gibi, çoğu durumda LLM yeterince faydalı, ama %1’lik istisna durumlarında iç yapıyı anlamak gerekir. Ben de kodun çoğunu ajanlara yazdırıyorum ama yine de bug yakalamak için gerekli anlayışa ihtiyaç var
İronik şekilde, bu yazının kendisi bile AI yazmış gibi bir üslup taşıyor. “It’s not X, it’s Y” gibi tekrar eden yapılar çok ve AI metin algılayıcılarında da yüksek olasılıkla işaretleniyor. Konusu düşünüldüğünde, metnin bir kısmı bile AI ile yazıldıysa bunu dürüst olmak adına belirtmek gerekirdi
“LLM kodu hızlı üretiyorsa bu iyi değil mi?” iddiası bana şüpheli geliyor. Öyleyse 10 kat hızlı geliştiricilerin yaptığı çığır açıcı ürünler nerede? Yıllar geçti ama dikkat çeken tek şey hâlâ LLM’lerin kendisi
Gerçekçi olarak bakınca Alice de AI’ı uygun şekilde kullanabilirdi. Bob’un yöntemi yanlış değil; eğer öğrenemiyorsa bu sadece onun sorunu. Sonuçta herkesin seçimi birbirinin kariyerini etkilemez