Bilim için yapay zeka abartısına kanıp öğrendiklerim

(understandingai.org)

3 puan yazan GN⁺ 2025-05-21 | 1 yorum | WhatsApp'ta paylaş

Princeton’da plazma fiziği araştıran yazar, 2018’de yapay zekanın fizik araştırmalarını hızlandırabileceğini düşünerek yön değiştirdi; ancak gerçekte PDE çözümü için yapay zeka beklenenden çok daha kırılgandı
PINN basit ve genel bir yaklaşım gibi görünüyordu, ancak kolay örnekler biraz değiştirildiğinde bile doğru çözüm elde etmek zorlaşıyordu ve ayarlarla da kararlılık sağlanamıyordu
Akışkanlar dinamiğiyle ilgili PDE çalışmaları üzerine 76 makale incelendiğinde, standart sayısal analizden daha iyi olduğunu iddia eden makalelerin 60’ı, yani %79’u zayıf karşılaştırma temelleri kullanıyordu; büyük hız artışı örnekleri de adil olmayan kıyaslamalara dayanıyordu
Bilim alanında yapay zeka kullanımı 2015’te %2’den 2022’de neredeyse %8’e çıktı, ancak bu artış bilimden çok atıf, kariyer ve fon toplama teşvikleriyle bağlantılı olabilir
Yapay zeka protein katlanması, hava tahmini ve ilaç keşfinde sonuç verebilir; ancak bilimi devrimsel biçimde hızlandırdığı yönündeki genel anlatı, hayatta kalan önyargısı, veri sızıntısı, zayıf karşılaştırma temelleri ve cherry-picking nedeniyle dikkatle değerlendirilmelidir

Plazma fiziğinden yapay zekaya yönelmesinin nedeni

Yazar, 2018’de Princeton’da plazma fiziği doktora programının ikinci yılındayken araştırma odağını makine öğrenmesine kaydırdı
- Elinde belirli bir proje yoktu, ancak yapay zekayla fizik araştırmalarını hızlandırmanın daha büyük etki yaratabileceğini düşünüyordu
- Yapay zeka alanındaki yüksek maaşların da motivasyon olduğunu söylüyor
Daha sonra Yann LeCun’un “pretty hot topic” dediği yapay zekayla kısmi diferansiyel denklemleri (PDE) çözme konusunu araştırma alanı olarak seçti
PDE’ler, fiziksel sistemleri modelleyen matematiksel denklemlerdir ve hesaplamalı fizik ile mühendislik simülasyonlarında önemlidir
- Yazarın laboratuvarı, füzyon reaktörü içi ile yıldızlararası ortamda plazma davranışını modellemek için PDE kullanıyordu
PDE çözümünde kullanılan yapay zeka modelleri, ChatGPT’den çok AlphaFold’a yakın özelleştirilmiş derin öğrenme modelleriydi

PINN deneylerinde ortaya çıkan kırılganlık

İlk denenen yöntem physics-informed neural network (PINN) idi
- PINN, PDE çözümünü bir piksel ızgarası olarak ifade etmek yerine çözümü bir sinir ağıyla temsil eder ve denklemi kayıp fonksiyonuna dahil eder
- İlk PINN makalesi, akışkanlar, kuantum mekaniği, reaksiyon-difüzyon sistemleri ve doğrusal olmayan sığ su dalgaları gibi klasik problemlerde etkili olduğunu iddia ediyor ve zaten yüzlerce kez atıf almıştı
Basit, zarif ve genel bir yöntem gibi görünüyordu, ancak gerçek deneyler beklendiği gibi çıkmadı
- Etkili ilk makaledeki örneklerden biri olan 1D Burgers’ denklemi başka bir basit PDE olan 1D Vlasov ile değiştirildiğinde, doğru görünen bir çözüm elde edilemedi
- Uzun ayarlamalardan sonra makul sonuçlar alındı, ancak 1D Vlasov-Poisson gibi biraz daha karmaşık PDE’lerde düzgün çözüm bulunamadı
- Başka bir üniversitedeki bir arkadaş da PINN ile iyi sonuç alamadığını söyledi
İlk PINN makalesinin yazarları da belirli ayarların bir denklemde etkileyici sonuçlar verirken başka bir denklemde başarısız olabildiğini gözlemlemiş görünüyor
- Ancak makalede PINN’in başarısız olduğu örnekler yer almıyordu
- Yazar da başarısız deneylerini makale olarak yayımlamadı; yalnızca çok tanınmayan bir konferans posterinde sundu

PINN’in bıraktığı dersler ve bugünkü değerlendirme

İlk ders, yapay zeka araştırma sonuçlarını görüldüğü gibi kabul etmemek gerektiği oldu
- Bilim insanlarının çoğu kimseyi kandırmaya çalışmıyor, ancak avantajlı sonuçlar sunma teşviki güçlü olduğu için okur kolayca yanıltılabiliyor
- Etkileyici sonuçlar veren yüksek etkili makalelere daha da şüpheyle bakılması gerektiğini düşünüyor
İkinci ders, yapay zeka yöntemlerinin başarısız olduğu durumların neredeyse hiç yayımlanmaması
- PINN’in başarısızlık modlarını ele alan bir makalenin çıkması iki yıl sürdü ve bu makale bugün 1.000’den fazla atıf almış durumda
- Bu da birçok araştırmacının PINN ile benzer sorunlar yaşamış olabileceğini düşündürüyor
Üçüncü sonuç, PINN’in yazarın kullanmak istediği yaklaşım olmamasıydı
- PINN basit ve zarifti, ancak ona göre fazla kararsız, zahmetli ve yavaştı
İlk PINN makalesi bugün, altı yıl sonra, 14.000 atıfa ulaşmış durumda
- Yazara göre bu, 21. yüzyıl sayısal analiz makaleleri arasında en çok atıf alan çalışma ve tüm sayısal analiz literatüründe ikinci sıraya çıkmasına 1-2 yıl kalmış olabilir
PDE’leri doğrudan çözme probleminde PINN’in genel olarak standart sayısal analiz yöntemleriyle rekabetçi olmadığı artık yaygın kabul görüyor; ancak ters problemler (inverse problems) konusundaki performansı hâlâ tartışmalı
- Savunucular, PINN’in özellikle ters problemlerde etkili olduğunu savunuyor
- Bazı araştırmacılar bu fikre sert biçimde karşı çıkıyor
- Yazar hangi tarafın haklı olduğunu bilmediğini ve ileride PINN’in dev bir atıf balonu olarak görülebileceğini düşünüyor

Zayıf karşılaştırma temellerinin yarattığı aşırı iyimserlik

Doktora tezinde, geleneksel çözücüler gibi PDE çözümlerini ızgara veya grafik üzerindeki piksel kümeleri olarak ele alan derin öğrenme modellerine odaklandı
- Bu yaklaşım, laboratuvarın ilgilendiği karmaşık zamana bağlı PDE’lerde PINN’den daha umut verici görünüyordu
- Birçok makale, PDE’leri standart sayısal analiz yöntemlerinden birkaç mertebe daha hızlı çözebildiğini iddia ediyordu
Özellikle Navier-Stokes denklemleri gibi akışkanlar dinamiği PDE örnekleri, yazarı ve danışmanını cesaretlendirdi
- Füzyon reaktörü içindeki plazmayı tanımlayan denklemler de benzer matematiksel yapıya sahipti; bu yüzden benzer hız kazanımları bekleniyordu
- Teoride daha büyük sistemler simüle edilebilir, tasarımlar daha hızlı optimize edilebilir ve araştırma temposu artabilirdi
Ancak yapay zeka modellerinin güvenilirliği ve dayanıklılığı ciddi sorun olabilirdi
- Daha hızlı simülasyonlar daha az güvenilir olacaksa, bu ödünleşimin gerçekten değerli olup olmadığını görmek gerekiyordu
- Modelleri daha güvenilir hâle getirme girişimleri çoğunlukla başarısız oldu ve bu da yapay zekanın PDE hızlandırmadaki potansiyelini sorgulatmaya başladı
Yüksek profilli makaleler, yapay zekanın Navier-Stokes denklemlerini standart sayısal analiz yöntemlerinden birkaç mertebe daha hızlı çözdüğünü söylüyordu; ancak karşılaştırma temeli en hızlı sayısal yöntem değildi
- Daha gelişmiş sayısal analiz yöntemleriyle kıyaslandığında, yapay zeka daha hızlı değildi ya da en fazla biraz daha hızlıydı

76 makalenin incelenmesi: %79’unda zayıf karşılaştırma temeli

Yazar ve danışmanı, akışkanlar dinamiği PDE’lerini çözmek için yapay zeka kullanan çalışmaları sistematik olarak inceleyip bir makale yayımladı
Standart sayısal analiz yöntemlerinden üstün olduğunu iddia eden 76 makalenin 60’ı, yani %79’u zayıf karşılaştırma temelleri kullanıyordu
- Ya daha gelişmiş sayısal analiz yöntemleriyle kıyaslama yapmıyorlardı
- Ya da aynı koşullarda karşılaştırma yapmıyorlardı
Zayıf karşılaştırma temeli oranı: {p:79}
Büyük hız artışları gösteren makalelerin tamamı zayıf karşılaştırma temelleriyle kıyaslama yapıyordu
- Sonuç ne kadar etkileyiciyse, adil olmayan bir karşılaştırma yapılmış olma ihtimali de o kadar yüksek görünüyordu
İnceleme, raporlama yanlılığını (reporting bias) da yeniden doğruladı
- Araştırmacılar olumsuz sonuçları raporlamaya pek eğilimli değil
- Zayıf karşılaştırma temelleri aşırı olumlu sonuçlar üretirken, raporlama yanlılığı da olumsuz sonuçların eksik raporlanmasına yol açıyor
Bu makale, hesaplamalı bilim ve mühendislikte yapay zeka etrafındaki tartışmayı alevlendirdi
- Lorena Barba, bu bulguları yapay zeka abartısı ve bilim dışı iyimserliğe dair kaygıları destekleyen bir kanıt olarak görüyor
- Google Research’ten Stephan Hoyer, bunu AI for PDEs’den hava tahmini ve iklim modellemeye neden geçtiğini iyi özetleyen bir makale olarak değerlendiriyor
- Johannes Brandstetter ise daha karmaşık endüstriyel uygulamalarda yapay zekanın daha iyi sonuç verebileceğini ve alanın geleceğinin hâlâ umut verici olduğunu savunuyor

PDE alanında gerekli doğrulama biçimi

Yapay zeka, PDE çözümüyle ilgili belirli uygulamalarda bir gün faydalı olabilir
Şu an için iyimser olmak için çok neden yok
- Yapay zeka yöntemleri, standart sayısal analiz yöntemlerinin sahip olduğu teorik garantilere sahip değil
- Ampirik olarak doğrulanmış dayanıklılıkları da yetersiz
Daha fazla çaba gerektiren iki yön var
- Sayısal analiz yöntemleri düzeyinde güvenilirlik yakalamaya çalışan araştırmalar
- Yapay zeka yöntemlerini agresif biçimde doğrulayan red teaming
Fon sağlayıcı kurumların, PDE’ler için zorlu benchmark problemleri oluşturmaya bilim insanlarını teşvik etmesi gerekiyor
- Protein katlanması alanında araştırmayı 30 yıl boyunca eşgüdümlü ve odaklı tutan iki yılda bir düzenlenen CASP yarışması, mümkün bir model olarak gösteriliyor

Yapay zekanın bilimi hızlandırdığı gerçek örnekler ve sınırlar

Protein katlanması, yapay zeka tabanlı bilimsel yeniliğin en temsilî örneklerinden biri
- 2024 Nobel Kimya Ödülü basın bülteniyle bağlantılı bir örnek olarak ele alınıyor
Başka başarı örnekleri de var
- Hava tahmini: Yapay zeka tahminleri, geleneksel fizik tabanlı tahminlerden doğrulukta %20’ye kadar daha iyiydi, ancak çözünürlük hâlâ düşüktü
- İlaç keşfi: İlk veriler, yapay zekanın keşfettiği ilaçların Faz 1 klinik denemelerde daha başarılı olduğunu, ancak Faz 2’de aynı durumun görülmediğini gösteriyor
- Bu eğilim sürerse, ilacın onaya kadar uzanan toplam başarı oranı neredeyse iki katına çıkabilir
Yapay zeka şirketleri, akademi, devlet kurumları ve medya, yapay zekayı kullanışlı bir bilim aracı olmanın ötesinde bilime “transformational impact” sağlayacak bir teknoloji olarak sunmayı giderek daha sık yapıyor
Bugünkü LLM’ler, DeepMind’ın ifadesiyle, insan bilim insanlarının dayandığı daha derin yaratıcılık ve akıl yürütmede hâlâ zorlanıyor
Varsayımsal olarak gelişmiş bir yapay zeka sistemi bir gün bilimsel süreci tamamen otomatikleştirebilirse, bilimi dönüştürüp hızlandırabilir; ancak yazar bunun yakında olmasını ya da gerçekten gerçekleşmesini beklemiyor

Bilim insanlarının yapay zekayı benimseme nedenleri

Bilimde yapay zeka kullanımının artıyor olması tek başına yapay zekanın bilime faydalı olduğunu göstermez
Bilim insanlarının yapay zekaya yönelmesinin nedeni, bunun bilimden çok bilim insanlarının kendisine fayda sağlaması olabilir
- Yazar da 2018’de yapay zekanın plazma fiziğinde işe yarayabileceğine içtenlikle inanıyordu, ancak yüksek maaş, iyi iş olanakları ve akademik itibar büyük motivasyondu
- Enstitülerin üst düzey yöneticileri, teknik değerlendirmelerden çok yapay zekanın fon çekme potansiyeliyle ilgileniyor gibi görünüyordu
Sonraki araştırmalar, yapay zeka kullanan bilim insanlarının çok atıf alan makaleler üretme ihtimalinin daha yüksek olduğunu ve ortalamada 3 kat daha fazla atıf aldıklarını öne sürüyor
Yapay zeka bilim içinde etkileyici sonuçlar üretse bile, bu onun mutlaka bilime faydalı bir şey yaptığı anlamına gelmez
- Çoğu durumda yapay zeka sadece ileride faydalı olabilecek bir potansiyel göstermiş olabilir
Yapay zeka araştıran bilim insanları, çoğu zaman bir problem bulup çözüm aramak yerine, önce yapay zekanın çözüm olduğunu varsayıp sonra çözülecek problem arayarak ters yönde çalışıyor
- Bu “hammer in search of a nail” yaklaşımı, zaten çözülmüş problemlere ya da yeni bilimsel bilgi üretmeyen problemlere yol açabiliyor

Hayatta kalan önyargısı ve yeniden üretilebilirlik krizi

AI-for-science başarısını değerlendirmek için gerçek bilime bakmak gerekir, ancak yalnızca bilimsel literatüre güvenmek zordur
İlk sorun hayatta kalan önyargısı (survivorship bias)
- Yapay zeka araştırmalarında olumsuz sonuçların neredeyse hiç yayımlanmadığı söyleniyor
- Başarısız örnekler eksik kaldığında, yapay zekanın bilime etkisini değerlendirme girişimleri çarpıtılıyor
Bu durum, çoğaltma krizinde bilinen sorunlara benziyor
- İstatistiksel olarak anlamlı olmayan sonuçlar literatürden elendiğinde, örneğin tedavi etkileri olduğundan büyük tahmin edilebiliyor
- Tıbbi araştırmalarda z değerlerinin dağılımında -1.96 ve 1.96 çevresindeki keskin süreksizlik, anlamlılık eşiğinin altındaki sonuçların yayımlanmadığını veya verilerin ayarlanmış olabileceğini düşündürüyor
AI-for-science alanında seçim ölçütü istatistiksel anlamlılık değil; önerilen yöntemin başka yaklaşımları geçip geçmediği ya da yeni bir görevi başarıp başarmadığına daha yakın
- Bu nedenle başarılı yapay zeka örnekleri sık raporlanırken, başarılı olmayan sonuçlar neredeyse hiç yayımlanmıyor
Princeton’dan Arvind Narayanan ve Sayash Kapoor, 30 alanda 648 makaleden veri sızıntısı (data leakage) gibi yöntemsel hataları derleyen bir liste hazırladı
- Veri sızıntısı her örnekte aşırı iyimser sonuçlara yol açıyordu
- Onlara göre yapay zeka tabanlı bilim, bir yeniden üretilebilirlik kriziyle karşı karşıya

Aşırı iyimserlik üreten dört tuzak

Yayımlanmış başarı örnekleri bile, yapay zekanın bilimsel potansiyelini olduğundan büyük gösteren sonuçlara yol açabilir
Alandan alana ayrıntılar ve ciddiyet değişse de temel tuzaklar dört başlıkta toplanıyor
- Veri sızıntısı
  - Eğitim ve değerlendirme verileri yanlış biçimde karıştığında, model performansı gerçekte olduğundan daha yüksek görünür
- Zayıf karşılaştırma temeli
  - Yapay zekayı en güncel sayısal analiz yöntemleri yerine zayıf rakiplerle yarıştırmak performans farkını abartır
- Cherry-picking
  - Yalnızca başarılı ayarların seçilip gösterilmesi, başarısızlık modlarının ve uygulama sınırlarının literatürden kaybolmasına yol açar
- Yanlış raporlama
  - Yapay zeka modellerini değerlendiren kişilerin bu değerlendirmeden çıkar sağlaması şeklindeki çıkar çatışması temel sorun olmaya devam ediyor
  - DeepMind, 2023’te 2,2 milyon kristal yapı keşfettiğini ve insanlığın bildiği kararlı malzeme sayısını tek haneli katlarla genişlettiğini iddia etti
  - Daha sonra malzeme bilimciler bu bileşikleri analiz edip bunları “mostly junk” olarak niteledi ve ilgili makalenin yeni malzemeler raporlamadığını nazikçe öne sürdü
  - MIT lisansüstü öğrencisi Aidan Toner-Rodgers’ın yapay zeka tabanlı yeni malzeme keşfi makalesi, ilk taslakta başarı örneği olarak yer alıyordu; ancak MIT araştırma bütünlüğü endişeleri nedeniyle geri çekilmesini istediğini açıklayınca metinden çıkarıldı
  - Açık dolandırıcılık şüpheleri, bu yazıda ele alınan daha incelikli yöntemsel sorunlardan farklı; ancak bu makalenin medyada büyük ilgi görmüş olması, yapay zeka tekniklerinin etkisini abartmaya yönelik çeşitli teşvikleri gösteriyor

Sonuç: devrimden çok eşitsiz ilerleyen kademeli bir araç

Bilimsel araştırmalarda yapay zeka kullanımı hızla artıyor
- Tüm bilimsel yayınlarda yapay zeka kullanım oranı 2015’te %2 iken 2022’de neredeyse %8’e çıktı
- Yapay zeka kullanım oranı: {l:2,8}
- Yalnızca bilgisayar bilimlerinde değil; fizik, kimya, biyoloji, tıp ve sosyal bilimlerde de benimsenme hızla artıyor
Yapay zekanın bilimsel atılımlar yaratabileceği kabul edilebilir
- Endişe, bu atılımların ölçeği ve sıklığı konusunda
- Tek bir paradigma olarak yetenek, eğitim, zaman ve paranın büyük ölçüde kaymasına yetecek kadar güçlü bir potansiyeli gerçekten gösterip göstermediği belirsiz
Her bilim alanı yapay zekayı farklı deneyimlediği için genelleme yaparken dikkatli olmak gerekiyor
Yine de yazarın deneyiminden çıkan üç ders birçok alana uygulanabilir
- Yapay zekanın benimsenmesindeki artışın bir yönü, bilimden çok bilim insanlarına fayda sağlaması olabilir
- Olumsuz sonuçlar neredeyse hiç yayımlanmadığı için AI-for-science hayatta kalan önyargısından muzdarip
- Yayımlanmış olumlu sonuçlar, yapay zekanın potansiyeline dair aşırı iyimserliğe eğilimli
Yapay zekanın, bilimsel üretkenlikteki düşüşü ve bilimsel ilerlemedeki durgunluğu tersine çevirip çevirmeyeceği bilinmiyor
- Büyük bir ileri seviye yapay zeka atılımı olmadığı sürece, yapay zeka devrimci bir araçtan çok kademeli ve eşitsiz bilimsel ilerleme için sıradan bir araca daha yakın görünüyor

1 yorum

GN⁺ 2025-05-21

Hacker News görüşleri

İlginç bir yazı. Yeni ortaya çıkan bir tekniğin gerçek değerinden fazla ilgi görme riski her zaman var.
Yazıdaki kilit cümle şu: “Çoğu bilim insanı birilerini kandırmaya çalışmıyor; ama avantajlı sonuçlar gösterme yönünde güçlü bir teşvik olduğu için okurun yine de kandırılma riski var.” İnsanların hangi teşvik yapısı içinde konuştuğunu anlamak, söylediklerini yorumlarken sık sık işe yarar.
- Başına AI kelimesini koyunca çok para kazanılabileceğini ve araştırma fonu alınabileceğini fark eden insanlar var. Ama sonuçta hemen her yazılımın içinde bir ölçüde makine öğrenmesi yok mu diye düşünüyorum; yeni bir şey de değil, mevcut uygulamalar da özellikle harika veya isabetli değil.
Bu, genel olarak akademinin mevcut sorunlarını tekrarlıyor gibi. Artık hakikati aramak değil, atıf sayısı ve kariyerizm öne çıkıyor; AI da bunun yaşandığı başka bir konu sadece.
- Genelleme yapmak istemem ama Almanya’daki çeşitli HPC merkezleri arasında gidip geldiğim için, fizikten itilmiş çok sayıda insanın buralarda toplandığını ve dağıtılan AI araştırma fonlarının önemli bir kısmının bu kişilerce emildiğini gösteren bir örüntü görüyorum. Bunun sonucu olarak çok sayıda ML4Science projesi çıkıyor.
  Kişisel olarak üzücü buluyorum. HPC merkezleri yalnızca fizikçiler için var olan yerler değil; özellikle Almanya’da AI araştırma fonu varsa, bence daha fazla AI temel araştırması yapılmalı.
- Adil olmak gerekirse, kariyerizm sorunu akademinin özel sektöre daha fazla kapılmasının ve onun sorunlarını da devralmasının bir yan etkisi gibi geliyor.
  Yazılım geliştirici olarak çalışırken öğrendiğim bir şey varsa, o da tüm kararların kariyerist ve bencil bir bakış açısından alındığıdır. En iyi olan değil, en etkileyici olan ve kişiyi öne geçiren şey önem kazanıyor. İş bitince artık onların sorunu olmuyor; aslında kimse de onları suçlayamıyor. Bu zihniyet o kadar yaygın ki katılmazsan enayi durumuna düşüyorsun. Başkaları bunu yapacak ve sonunda seni geçecek. Sonuç aynı, ama daha dezavantajlı olan yalnızca sen oluyorsun.
- Bu hikâyenin hangi anlamda “artık hakikati aramak değil” diye yorumlanabileceğini bilmiyorum. Aksine hakikatin arandığı ve bulunduğu çok net bir örnek değil mi?
- Buradaki “artık” ifadesinin neden kullanıldığını gerçekten anlamıyorum.
Şans eseri AI tabanlı birkaç FEM benzeri yapısal analiz aracını deneme fırsatım oldu.
En iyi durumda bile doğrusal, küçük şekil değiştirme problemlerinde idare eder düzeydeler. Tam çözüme yakın bir sonucu yaklaşık 5 dakikada alabileceğin bir modeli, oldukça kaba bir çözümle yaklaşık 30 saniyede almak gibi. Doğrusal olmayan unsurlar eklemeye başlayınca tamamen dağılıyorlar.
Çok üst düzey kavram seçimleri için yeterli olabilir, ama o bile pek iyi değil. Bazılarının fiilen eğrilik algılayıcısından ibaret olduğuna epey eminim: düz çizgileri mavi, yüksek eğrilikli yerleri kırmızı yapıp geri kalanını enterpole etmek gibi.
- Bu tür bir model iteratif bir çözüm yönteminde ön işlemci olarak kullanılabilir mi?
- O zaman “ikinci ilkelerden” bir analiz aracına daha yakın gibi. Daha önce görmediği şeyleri sentezleyemeyen bir yapı.
AI savunucusu hiç değilim, ama olumsuz sonuçların yayımlanmaması ve araştırma makalelerinde herkesin kendi sonuçlarını abartması sorunu ne yazık ki AI ile sınırlı değil. Bu, bilim insanlarının değerlendirilme biçiminin ve geleneksel medya gibi audience peşinde koşan bilim yayıncılığı sektörünün sonucu.
Her hâlükârda kış geliyor olabilir mi?
- Evet, bu yalnızca AI’a özgü bir sorun değil. Ama AI makalelerinde, aslında “1 trilyon GPU koyup sonsuza kadar çalıştırırsanız {sihirli benchmark} çıkar” anlamına gelen ifadeler sık görülüyor. Ya da “talep ederseniz sağlayacağımızı iddia ettiğimiz ama gerçekten talep edince görmezden geleceğimiz çok gizli gerçek yaşam veri setimizde değerlendirildiğinde, ne kadar zeki olduğumuzu gösteren bir grafik görürsünüz” tarzı şeyler.
  Elbette çoğu zaman bunlar öncelik kapma makaleleri oluyor; ama böyle makaleler büyük şirketlerden gelince, bariz kusurlar olsa bile onları öylece görmezden gelip geçemiyorsunuz.
  Sonuçta bu bir kaynak yarışı. Bütçesi küçük bir üniversitenin eski araştırmacısı olarak biz rekabet edemeyiz. Yeniden üretilebilirlik olmadan literatüre “benchmark” diye aktarılan sayılara inanmaya zorlanıyoruz.
- AI’ın pratik uygulamaları üzerine ilk makalelerimi 15 yıldan biraz önce yayımladıktan sonra başka bir alana geçmiştim; yakın zamanda yeniden bu alana çekildim.
  Bunun bilimin genelinde bir sorun olduğuna katılıyorum, ama AI ün ve para peşindeki araştırmacıları olağanüstü ölçüde çekiyor gibi. Sınırlı deneyimime göre abartılı iddialar ve veride cımbızlama daha uç düzeyde görünüyor; sorumlu araştırmacılar bile rekabet edebilmek için iddialarını azar azar abartmaya başlıyor.
- AI şu anki aşırı ısınmış hype mıknatısı olduğu için çatlaklar daha belirgin görünüyor, hepsi bu.
- Ama AI, kulağa makul gelen makaleler yazmayı daha kolay hâle getiriyor.
HN gibi yerlerde insanların AI/ML algısının neden bu kadar bölündüğünü pek anlayamıyorum
Daha önce böyle bir şey görmedim. Metin girdisine dayanarak kod üretme gibi işler yapacak bir sistem ya da yöntem fiilen yoktu
Geçen hafta bile temel bir UI’ı olan bir görüntü segmentasyonu betiği istedim; Claude bunu 1 dakikadan kısa sürede hazırladı
Devrimsel denebilecek çok sayıda örnek verilebilir. Tüm görüntü üretim yığını tamamen yeni
Bu blog yazısı yeterince adil ve bu konuda bir aşırı ısınma olduğu da doğru. Ama yalnızca araştırmalarında kod yazması gereken tüm araştırmacılar açısından bakıldığında bile yapay zeka onları şimdiden çok daha verimli hâle getirebilir
Daha da ötesi, yeni bir çağa girdiğimizi düşünüyorum. Veriyi yeniden son derece ciddiye aldığımız bir çağ. Birkaç yıl önce “internet unutmaz” denirdi, ama kısa süre sonra internetin de unutmaya başladığını fark ettik. Google sayfaları siliyor, önbellek özelliğini kaldırıyor ve veriyi nasıl kullanması gerektiğini bilmediği için artık umursamıyor gibi görünüyordu
Sonra yapay zeka ortaya çıktı; veri yeniden kral olmakla kalmadı, şu anda pekiştirme çağının tam ortasındayız. Geri bildirim verdiğinizde sistem bu geri bildirimi öğrenmeye yansıtıyor
AI/ML konusu donanım, algoritmalar, kullanım örnekleri, veri, araçlar, protokoller gibi her açıdan ele alınıyor. Onu birleştiriyoruz; onun için ve onun üzerine inşa ediyoruz, sadece biraz zaman alacak. Yine de ilerleme hızı akıl almaz derecede nefes kesici
Gerçekten bir tavan olup olmadığını ancak birkaç yıl sonra anlayabiliriz. AI mimarileri ve algoritmaları üzerinde çok daha fazla deney yapmak için daha fazla GPU’ya ve daha büyük veri merkezlerine ihtiyaç var. Darboğaz açık. Büyük şirketler bile tek bir büyük modeli haftalarca, aylarca eğitiyor
- “Geçen hafta bile temel bir UI’ı olan bir görüntü segmentasyonu betiği istedim; Claude bunu 1 dakikadan kısa sürede hazırladı” kısmı bize göre Stack Overflow’dan havalı bir şekilde kopyala-yapıştır yapmaya daha yakın. Bu yüzden “Google’a yakındaki restoranları sordum, 500 ms içinde buldu. Benim C64’üm bunu yapamazdı” gibi duyuluyor
  Etkileyici ve gerçekten faydalı olduğu doğru. Ama kulağa “gerçek dünyayı keşfetmeyi öğrenip ilgili problemleri çözebilir hâle geldi” gibi gelse de, aslında çözülen şey “GIS veritabanında şık bir şekilde arama yapmak”. Yenilik hissi kaybolunca, hayal edilen şeyin yerine gerçekte ne olduğu görünmeye başlıyor
  Noktayı daha net söylemek gerekirse, “Claude üretti” dediğinizde sizin düşündüğünüz şey, yapay zekanın “düşündüğü”, bir ontoloji kurduğu ve bunun üzerinde akıl yürüterek bu betiğin doğru çıktı olduğu sonucuna vardığı. Gerçekte olan şey, girdinin trilyonlarca örnekte görülen örüntülere göre bu çıktıyla ilişkili olması. Ontoloji yok, akıl yürütme yok. Elbette yine de etkileyici ve çok faydalı, ama zamanla büyüsü kaybolacak. Sınırlar zaten açık
- “HN gibi yerlerde insanların AI/ML algısının neden bu kadar bölündüğünü anlamıyorum” denmesi, herkesin kendi bakış açısından rasyonel aktörler olmasından kaynaklanıyor. Yapay zekayı öne çıkaranların da, aşırı ısınmayı küçümseyenlerin de kendilerine göre geçerli nedenleri var
  Bu yeni teknolojiyi çığır açıcı görmeyi destekleyen gerekçeler de var; büyük ölçekli veri hırsızlığına ve mahremiyete gösterilen umursamazlığa karşı temkinli olmayı destekleyen gerekçeler de
  Önce herhangi bir konuda farklı düşünceler olabileceğini kabul edip buna saygı duymak gerekir. Bir süreliğine kendinizi denklemin dışına çıkarıp karşı tarafı anlamalısınız. Gerçekten anlamalısınız
  Başkasının ayakkabılarıyla uzun süre yürümek gerekir
- “Yalnızca araştırmalarında kod yazması gereken tüm araştırmacılar açısından bakıldığında bile yapay zeka onları şimdiden çok daha verimli hâle getirebilir” sözüne gelince, bilim insanının ihtiyaç duyduğu şey verimlilik değil doğruluktur. Yazılım hataları zaten bilimsel hataların ve tekrarlanabilirlik eksikliğinin büyük bir nedeni olmuştur; örneğin şöyle bir vaka var: https://www.vice.com/en/article/a-code-glitch-may-have-cause...
  Araştırma ortamlarındaki programlama kalitesi, sektörde olduğu gibi, kötü şöhretli biçimde çok değişkendir; ancak araştırmada küçük bir hata tüm çalışmanın sonuçlarını mahvedebilir. Laboratuvar gibi ortamlarda, empresyonist bir ressam gibi ya da bunun yapay zeka versiyonu gibi yazılım yazamazsınız. Gerçekte ne girdiğinizi bilmeniz gerekir
  Doğru olup olmadığını önemsemiyorsanız yapay zeka sizi daha verimli hâle getirebilir. Yaz plaj voleybolu etkinliği görseli oluşturmak için harika olabilir, ama bilimsel bir ortamda kod yazmak için felaket bir fikirdir
- Buna karşılık “yapay zeka bilimi devrimsel biçimde değiştirecek” anlatısı, kanıtların desteklediği seviyenin çok önünde gibi geliyor
- HN her zaman “şu anda aşırı ısınmış olan teknoloji ne kadar gerçek, ne kadar abartı” konusunda bölünür
  Bunu defalarca gördüm ve teknolojiye ve zamana göre farklı taraflarda yer aldığım da oldu
  Bana her zaman gördüğümüz manzara gibi geliyor
Yazı başta, bilim genelinde yapay zekanın, en azından yazarın alanındaki yapay zekanın tümüyle abartı olduğunu ima ediyor gibi görünüyor. Ancak şikâyet belirli bir mimari olan PINN’e yönelmiş gibi; sonlarda ise PDE’leri geleneksel sayısal analiz yöntemlerinden daha hızlı hesaplamak için başka derin öğrenme modellerini başarıyla kullandığını da söylüyor
- Sorun PINN’den çok daha geniş. PINN’in berbat olduğu uzun zamandır yaygın biçimde biliniyordu. Ama makine öğrenmesinin fizik problemlerinde genel olarak başarısız olması çok daha yaygın
  Makine öğrenmesinin genelde parladığı durum, görece dar bir alan için epey fazla deneysel verinin bulunduğu durumlardır. 1990’lardan beri var olan makine öğrenimi atomlar arası potansiyeller bunun bir örneği. Hava durumu modellemesi de buna aday olabilir, ama o konuda yorum yapmak istemem. Ya da verinin akıl almaz derecede çok olduğu ve gerçekten devasa bir modelin eğitildiği durumlardır. Bugün AI dediğimiz şey bu. AlphaFold’un başarılı olmasının nedeni de temelde bu; AlphaFold da eğitim verisindeki herhangi bir noktadan çok uzak bir girdi verildiğinde iyi sonuç üretmiyor
  Ama fizik problemleri için makine öğrenmesinin çoğu bu ikisinin arasında bir yerde. Deneysel veri yetersiz, simülasyon verisi ise üretmesi çok pahalı olduğu için yeterli değil. Modeller de yeterince büyük değil; zaten çok büyük olurlarsa çıkarım yavaşlayacağı için. Buna rağmen bu modellerin çok geniş bir fizik aralığını öğrenmesi bekleniyor
  Sonra herkes hype trenine atlıyor. Çünkü denemesi çok kolay. Herkes aynı fiyasko sonuçları elde ediyor ama yine de yayımlıyor. Laboratuvar ya da PI yeterince ünlüyse veya problemi özgün, bilimsel ve matematiksel görünecek şekilde formüle ederseniz iyi dergilere ya da konferanslara girebilir, çok da atıf alabilirsiniz. Ama sonuçta elde edilen şey aynı. Eğitim verilerini bir ölçüde kopyalıyorlar ve genelleme sorununun birilerinin daha fazla araştırması gereken bir konu olduğu sonucuna varılıyor
- Yazar, birden fazla model üzerinde sistematik analiz sunan tam bir makale yayımladı. Buna ayrılmış ayrı bir bölüm de var. Dolayısıyla bu yalnızca PINN meselesi değil
- PINN’i herhangi bir “AI” çözümüyle değiştirseniz de yine abartılmış olacaktır
  Şimdiye kadar “AI” hakkında gerçekçi değerlendirme, yalnızca uzmanların sıkıcı işleri biraz atlamasına yaradığı ve çıktının üç kez kontrol edilmesi gerektiğini kabul etmekten ibaret
“Birkaç hafta başarısız olduktan sonra başka bir üniversitedeki arkadaşıma mesaj attım; o da PINN’i denediğini ama iyi sonuç alamadığını söyledi” kısmı doğrudan yapay zekayla çok ilgili değil, ama üniversitede araştırma yaparken çok geç öğrendiğim bir dersi hatırlatıyor. Sürekli işbirliği önemli. Çünkü başkalarının zaten başarısız olduğu alanlara yeniden basmaktan kaçınmanızı sağlıyor
- Bunu, araştırmacıların başarısız deneyleri de yayımlaması gerektiği ihtiyacı olarak da görebilir miyiz
- Bilim için AI ajanları fikrinin pek anlamlı gelmemesinin bir başka nedeni de bu. Araştırma, son derece işbirliğine dayalı faaliyetlerden oluşan bir bütün. Literatür taramasında çok iyi olan ama kimseyle gerçekten konuşmayan ve konferanslara gitmeyen bir araştırmacı ne kadar iyi olabilir
Analiz mükemmel, örnekler de yerinde. AI ile ilgili araştırmaların bir başka sorunu, makalelerin önemli bir kısmı yeni olmasına ve pek çoğu “düzgün” yerlerde yayımlanmamış olmasına rağmen, yalnızca Google Scholar’a bakıldığında bile her yerde sürekli atıf almaları
Sonuçları yeniden üretmek ve bazı ifadelerin geçerliliğini doğrulamak zor; ayrıca 4 yıl önceki çalışma bir model kümesi kullanmışken, bugün testlerde farklı eğitim verilerine sahip başka model kümeleri kullanılıyor. Sonuçları gerçekte neyin etkilediğini, çıkarımların eski modellerin belirli özelliklerine mi özgü olduğunu yoksa genellenebilir mi olduğunu ortaya koymak zor
- Bilim insanı ya da araştırmacı değilim, ama istatistik ve veri yorumlamasına dayanan her şeyden hemen şüphelenmeye başlıyorum
Başlık mı değişti, yoksa ben halüsinasyon görmeye mi başladım
Başlık “I got fooled by AI-for-science hype—here's what it taught me”
- Evet, değişmiş. Kişisel olarak daha kötü olduğunu düşünüyorum. Orijinal başlıktan değiştirilmiş
  Burada ciddi bir sorun olmadığı sürece özgün başlık tercih edilmeli
  Bu özgün başlıkta ciddi bir sorun yoktu. Tabii, bilimsel araştırmalara yönelik şüpheli AI katkılarını bir doktora öğrencisinin dikkatli biçimde eleştirmesini doğru özetlemesi ciddi bir sorunsa başka
- Halüsinasyon değil: https://web.archive.org/web/20250520152757/https://news.ycom...
Bu yazı AI hakkında bir yazı olmaktan çok, doktora sürecinin daha az konuşulan işlevlerinden biri olan akademik iddia okuma becerisini geliştirme hikâyesi gibi görünüyor
Makaledeki iddialar şaşırtıcı değil. Çünkü bunlar, zamanla “bilim” demeye başladığımız karmaşık teşvik yapılarının doğal bir ürünü. Bilimin çıktısını doğru bağlama yerleştirmek ve bir “makale”nin, beraberindeki tüm karmaşıklıklarla birlikte bir sosyoteknik sistemin ürünü olduğunu anlamak zaman ve pratik gerektiriyor

Bilim için yapay zeka abartısına kanıp öğrendiklerim

Plazma fiziğinden yapay zekaya yönelmesinin nedeni

PINN deneylerinde ortaya çıkan kırılganlık

PINN’in bıraktığı dersler ve bugünkü değerlendirme

Zayıf karşılaştırma temellerinin yarattığı aşırı iyimserlik

76 makalenin incelenmesi: %79’unda zayıf karşılaştırma temeli

PDE alanında gerekli doğrulama biçimi

Yapay zekanın bilimi hızlandırdığı gerçek örnekler ve sınırlar

Bilim insanlarının yapay zekayı benimseme nedenleri

Hayatta kalan önyargısı ve yeniden üretilebilirlik krizi

Aşırı iyimserlik üreten dört tuzak

Veri sızıntısı

Zayıf karşılaştırma temeli

Cherry-picking

Yanlış raporlama

Sonuç: devrimden çok eşitsiz ilerleyen kademeli bir araç

İlgili okumalar

1 yorum

Hacker News görüşleri