3 puan yazan GN⁺ 2025-05-21 | 1 yorum | WhatsApp'ta paylaş
  • Plazma fiziği araştırmalarında AI kullanımına dair beklentilerin aksine, gerçek uygulama sonuçları abartılmış başarılar ve sınırlamalar etrafında şekilleniyor
  • AI ile PDE (kısmi diferansiyel denklem) çözme yaklaşımları (PINN vb.), güvenilirlik ve performans açısından mevcut sayısal yöntemlere karşı belirgin bir üstünlük sunmuyor
  • Zayıf karşılaştırma ölçütleri (weak baseline) ve raporlama yanlılığı nedeniyle, AI başarısına dair makalelerin çoğu gerçekte olduğundan fazla olumlu bir tablo çiziyor
  • AI'nin bilimsel kullanımı hızla artsa da, bunun bilimsel ilerlemeyi dönüştüren bir araç olmaktan çok kademeli ve sınırlı katkılar sunma ihtimali daha ağır basıyor
  • Bilimsel makale yapısı ve araştırmacı teşvikleri yüzünden başarısız örneklerin yayımlanmaması ve abartılı raporlama tekrar ediyor; bu da AI'nin bilim üzerindeki etkisini değerlendirirken temelden kuşkucu bir bakış gerektiriyor

Giriş ve araştırma geçmişi

  • Yazar Nick McGreivy, Princeton'da plazma fiziği doktorasını tamamladıktan sonra, AI'nin bilimsel araştırmalara, özellikle de fiziğe, yenilik getirebileceği beklentisiyle makine öğrenimi kullanımına yöneldi
  • AI'nin elektronik, internet ve tümleşik devreler gibi genel amaçlı teknolojiler misali bilimin tamamını kökten değiştirip değiştiremeyeceğiyle ilgilendi
  • Ancak pratikte, AI ile PDE (kısmi diferansiyel denklem) çözümü araştırmalarında, öne çıkan makalelerde açıklanan sonuçlarla kıyaslandığında gerçek uygulamalarda beklentilerin altında kalan deneyimler yaşadı

PINN (Physics-Informed Neural Network) uygulama deneyimi

  • AI ile PDE çözümü alanında PINN öne çıkan bir yöntem olarak hızla yükseldi ve yazar da bu yaklaşımı deneysel olarak kullandı
  • Mevcut makalelerde PINN'in klasik akışkanlar, kuantum mekaniği ve reaksiyon-difüzyon sistemleri gibi farklı alanlardaki PDE problemleri için etkili çözümler sunduğu bildiriliyordu; ancak pratikte çok basit PDE'lerde bile (1D Vlasov gibi) kararsız ya da son derece düşük güvenilirlikte sonuçlar üretildiği görüldü
  • Basit ayarlamalarla iyileştirme yapmak zordu; daha karmaşık PDE'lerde (1D Vlasov-Poisson gibi) ise uygun bir çözüm elde etmek tamamen başarısız oldu
  • Çevresindeki araştırmacılar da benzer başarısızlıklar yaşadı, ancak bu tür olumsuz sonuçlar neredeyse hiç makale olarak yayımlanmıyor

PINN deneylerinden çıkarılan dersler

  • Etkili ilk dönem makalelerin yazarları bile belirli ayarlarda PINN'in başarısız olduğunu biliyordu, ancak yalnızca ikna edici görünen sonuçları paylaştı
  • Bilimsel yayın ekosisteminde olumlu sonuç odaklı raporlama ve AI ile ilgili başarısız deneylerin yayımlanmaması, survivorship bias etkisini daha da güçlendiriyor
  • PINN yaklaşımı sayısal açıdan zarif bir fikir olsa da, kararsızlık, ince ayar zorluğu ve düşük işlem hızı gibi pratik sınırlamalar nedeniyle yazar bu yöntemi bırakmayı seçtiğini aktarıyor
  • Orijinal makale 14.000'den fazla atıf alarak sayısal yöntemler alanında en çok atıf alan çalışmalardan biri oldu, ancak gerçek PDE çözümünde mevcut yöntemlere karşı rekabet avantajı göstermedi
  • Son dönemde PINN'in inverse problems gibi belirli alanlarda etkili olabileceği öne sürülse de, araştırmacılar arasında bu konuda tartışma sürüyor

Uygunsuz karşılaştırma ölçütlerinin yarattığı aşırı iyimserlik

  • Yazar daha sonra, geleneksel sayısal tekniklerde olduğu gibi PDE çözümlerini ızgara ya da grafik pikseller kümesi olarak ele alan derin öğrenme yaklaşımlarını denedi
  • Birçok makale, AI'nin PDE'leri mevcut yöntemlerden binlerce hatta on binlerce kat daha hızlı çözdüğünü duyurdu; ancak pratikte bu karşılaştırmalarda kullanılan baseline'ların çoğu zaten zayıf yöntemlerdi
  • Temsil niteliğindeki makalelerin incelenmesi sonucunda, AI'nin üstünlük sağladığını iddia eden 76 çalışmanın 60'ında (%79), yeterince güçlü mevcut sayısal yöntemlerle adil bir karşılaştırma yapılmadığı ortaya çıktı
  • Bu tür zayıf karşılaştırma ölçütleri ve negatif sonuçların yayımlanmaması, "AI devrim niteliğinde sonuçlar üretiyor" değerlendirmesinin gerçekte olduğundan daha abartılı olmasına yol açtı
  • İlgili araştırmalar akademi ve sanayi genelinde tartışma yarattı; bir kesim gelecekteki araştırma yönleri ve AI'nin potansiyelinin güçlenmesini savunurken, başka bir kesim bugünkü aşırı değerleme sorununa karşı daha güçlü bir uyarı dile getirdi

Bilimde AI'nin rolü ve sınırları

  • Öne çıkan başarı örnekleri arasında AlphaFold'un protein katlanma tahmini, hava tahmini alanında doğrulukta %20'ye varan artış ve ilaç geliştirmede Faz 1 klinik başarı oranlarının yükselmesi yer alıyor; ancak bunlar geniş çaplı bir devrimden çok mevcut teknikleri tamamlayan ve kademeli ilerlemeler niteliğinde
  • Küresel büyük teknoloji şirketleri, medya ve akademi AI'yi "bilimi dönüştüren bir araç", hatta "bilim paradigmasını değiştirecek dönüşümün başrolü" olarak sunuyor; ancak bugünkü AI düzeyinin bu beklentileri kökten karşılamada net sınırları bulunuyor

AI benimseme motivasyonları ve araştırma ekosisteminin yapısal sorunları

  • Bilim insanlarının AI'yi benimsemesindeki başlıca neden, bilimin ilerlemesinden çok kişisel getiriler; örneğin daha yüksek maaş, kariyer avantajı, daha fazla atıf ve araştırma fonu elde etmek
  • Gerçekten de AI kullanan araştırmacıların, çok atıf alan makaleler ve araştırma rekabetçiliği bakımından diğer bilim insanlarına göre daha avantajlı bir ortamda bulunduğu görülüyor
  • AI kullanan araştırmacılar çoğu zaman "çözülmesi gereken bilimsel sorunu" tanımlamak yerine, baştan itibaren "AI ile çözülebilecek bir problem" arayan yapısal bir tuzağa düşüyor
  • Bunun sonucu olarak odak, gerçek bilimsel ilerlemeden çok AI'nin potansiyelini sergilemeye kayıyor; çoğu durumda zaten çözülmüş problemler ya da ikincil etkiler öne çıkıyor

Makale raporlamasının yapısal sınırları ve bilimde iyimserlik yanlılığı

  • Olumsuz sonuçların raporlanmaması (survivorship bias) nedeniyle, yalnızca AI kullanımındaki başarı örnekleri görünür oluyor ve başarısızlıklar gizli kaldığı için toplam etki değerlendirmesi çarpıtılıyor
  • Makale yapısı gereği data leakage, zayıf karşılaştırma ölçütleri, cherry-picking ve raporlamama gibi sistematik hata ve yanlılıklar tekrar tekrar ortaya çıkıyor
  • Değerlendiricilerle çıkar sahipleri aynı topluluğun içinde yer aldığından, başarı değerlendirmesi doğrudan çıkara bağlı bir çıkar çatışması yapısı içinde gerçekleşiyor
  • Bu nedenle, bilimde AI'nin etkisini değerlendirirken, "beslenme araştırmalarında tek bir çalışmanın sonucuna körü körüne güvenmeme" yaklaşımına benzer şekilde temelden kuşkucu ve eleştirel doğrulama alışkanlığı gerektiği vurgulanıyor

Sonuç

  • Kısa vadede AI'nin, bilimsel yeniliği taşıyan devrimci bir araçtan çok mevcut yöntemleri kademeli ve seçici biçimde tamamlayan bir araç olma ihtimali daha yüksek görünüyor
  • Araştırma ekosistemindeki yapısal teşvikler, aşırı değerleme, başarısızlıkların raporlanmaması ve zayıf karşılaştırma ölçütleri nedeniyle, AI'nin gerçek bilimsel başarısını değerlendirirken her zaman eleştirel ve kuşkucu bir bakış korunmalı
  • İdeal bir AI yeniliği için yapısal reformların da eşlik etmesi; örneğin zorlayıcı benchmark'ların oluşturulması, başarısız örneklerin yayımlanması ve adil karşılaştırma çerçevelerinin geliştirilmesi gerektiği mesajı veriliyor

1 yorum

 
GN⁺ 2025-05-21
Hacker News görüşleri
  • Başlığın değişip değişmediği konusunda kafa karışıklığı var; mevcut başlık şu: "I got fooled by AI-for-science hype—here's what it taught me"

    • Başlık sonradan değiştirilmiş gibi görünüyor; bence hatta daha da kötü olmuş, orijinal başlık tercih edilmeliydi ve makalenin ilk başlığında bir sorun yoktu. İçerik, bir doktora öğrencisinin yapay zekanın bilimsel araştırmaya katkı sunduğuna dair şüpheli örnekleri eleştirel biçimde incelemesiyle ilgili.

    • Hayır, bu bir yanlış görme değil; başlığın gerçekten değiştirildiği doğrulanmış, hatta arşiv bağlantısı bile örnek olarak verilmiş.

  • Yapay zeka tabanlı, FEM tarzı bir yapısal analiz çözücüsü kullanma “şansım” oldu. Doğrusal küçük deformasyon problemlerinde idare eder ama işler karmaşıklaşınca performans çakılıyor. Klasik yöntem 5 dakikada doğru çözüm üretirken bu yaklaşım 30 saniyede kabaca bir şey çıkarıyor. Doğrusal olmayan problemlerde ise tamamen dağılıyor. En fazla çok üst düzey kavram seçimi için işe yarayabilir ama orada bile zayıf. Bazı modeller neredeyse sadece bir eğrilik dedektörü gibi: düz olan mavi, eğriliği yüksek olan kırmızı, geri kalanı da interpolasyon.

    • Sonuçta daha çok bir “second principles” çözücüsüne benziyor; daha önce görmediği durumlarda gerçekten yeni bir çözüm üretemiyor.

    • Bu tür modellerin yinelemeli çözüm yöntemlerinde preconditioner olarak kullanılıp kullanılamayacağını merak ediyorum.

  • Yeni ve popüler teknolojilerin aşırı ilgi görmesinde her zaman bir risk var. Yazıdaki önemli alıntı şu: “Çoğu bilim insanı başkalarını bilerek kandırmaya çalışmıyor, ama olumlu sonuç göstermek için güçlü bir baskı var ve bu da sonunda yanıltıcı sonuçlara yol açabiliyor.” Birinin teşviklerini anlamanın bilgiyi yorumlamada çok faydalı olduğu vurgulanıyor.

    • Sırf “AI” kelimesi sayesinde para ve fon arayan insanlar var. Oysa çoğu durumda ortada sadece makine öğrenmesi eklenmiş bir yazılım oluyor ve bu da uzun zamandır var olan bir yaklaşım. Teknolojinin kendisinin o kadar büyük ya da hassas olmadığını düşünüyorum.
  • Sonuçta bu, akademinin kronik sorununun tekrarı: gerçeği aramak yerine atıf sayısına ve kariyere daha çok odaklanmak. AI da sadece bu başlıklardan biri.

    • Genellemek istemem ama Almanya’daki birkaç HPC merkezinde gördüğüm örüntü şu: fizik okumuş ama orada ilerleyememiş birçok kişi var ve AI ile ilgili bütçelerin çoğunu da bunlar alıyor, ortaya da ML4Science türü projeler saçılıyor. HPC merkezleri sadece fizikçiler için var değil, bu bütçe yığılması üzücü. Almanya’nın AI’nin kendisine daha fazla yatırım yapması gerektiğini düşünüyorum.

    • Gerçekte kariyerizm sorunu, akademinin giderek özel sektör mantığını devralmasının bir yan etkisi. Yazılım geliştirici olarak öğrendiğim şey, tüm kararların kişisel çıkar ve kariyer etrafında dönmesi. Herkes yalnızca kendi iyi görünmesine bakıyor, işler ters gidince de suçu başkasına atıyor. Bu zihniyete karşı çıkmazsan dezavantajlı duruma düşüyorsun; sonunda da aynı sonuca gidiliyor ama zararı sen çekmiş oluyorsun.

    • “no longer” ifadesinin neden kullanıldığını gerçekten anlamıyorum.

  • “Birkaç haftalık başarısızlıktan sonra başka bir üniversitedeki arkadaşıma ulaştım, onun da PINNs ile iyi sonuç almadığını öğrendim” kısmı, araştırmada AI’dan bağımsız olarak sürekli işbirliğinin ne kadar önemli olduğunu hissettiriyor. Başkalarının zaten başarısız olduğu yolları yeniden yürümemeyi sağlıyor.

    • Araştırmacıların başarısız deneyleri de makale olarak yayımlaması gerektiği söyleniyor.

    • Bilimsel AI ajanı fikrinin bana pek ikna edici gelmemesinin bir başka nedeni de bu. Araştırma doğası gereği son derece işbirlikçi bir süreç. Literatür taramasını ne kadar iyi yaparsa yapsın, gerçekten insanlarla görüşmeden ve konuşmadan iyi bir araştırmacı olunabilir mi, emin değilim.

  • AI destekçisi değilim ama olumsuz sonuçların makaleye dönüşmemesi ve herkesin kendi çalışmasını abartması sadece AI’ya özgü bir sorun değil. Bu, bilim insanlarının değerlendirilme biçimiyle ve akademik dergi endüstrisinin yapısıyla ilgili; tıpkı geleneksel medyada olduğu gibi dikkat çekmeye saplanmış bir düzen. Yine de bir kışın geldiği hissi var.

    • AI makalelerinde sık sık şu tür iddialar var: “Milyarlarca GPU ve sınırsız zaman kullanırsanız sihirli biçimde işe yarıyor” ya da “Gizli gerçek veri kümesinde test ettik ve en iyisi çıktı.” Büyük şirketlerden gelen makalelerde bariz açıklar olsa bile bunlar kolayca görmezden geliniyor. Sonuçta kaynak savaşı bu; benim gibi bütçesi kısıtlı üniversite araştırmacıları bunları yeniden üretemiyor ve makaledeki sayılara inanmak zorunda kalıyor.

    • 15 yıl önce AI’nin pratik kullanımına dair bir makale yazdıktan sonra başka bir alana geçmiştim, yakın zamanda tekrar döndüm. Bu sorun her alanda var ama AI özellikle şöhret ve para peşinde koşan araştırmacıları çekiyor. Abartılı iddialar ve seçilerek düzenlenmiş veriler de sanki daha yaygın. Sorumluluk sahibi araştırmacılar bile rekabet edebilmek için bir miktar abartıya yöneliyor.

    • AI sadece güncel modanın mıknatısı; sorunlar bu yüzden daha görünür hale geliyor.

    • AI özellikle “makul görünen makale” yazmayı daha da kolaylaştırıyor.

  • HN’de AI/ML etrafındaki algının neden bu kadar keskin biçimde ayrıştığını merak ediyorum. Bu, şimdiye kadar görmediğimiz yeni bir alan; yalnızca metin girdisiyle kod üretebilmek eskiden yoktu. Yakın zamanda görüntü segmentasyonu için bir scripti, UI dahil olacak şekilde claude’a yaptırdım ve 1 dakika içinde üretti. Böyle yenilikçi örnekler bir iki tane değil. Görüntü üretimi de bambaşka bir dünya. Bu blog yazısında da abartı var ama bir araştırmacı açısından sadece AI ile kod üretkenliği bile ciddi verimlilik sağlıyor. Daha da ilginç olan, veriye bakışın değişmesi. Eskiden “internet asla unutmaz” denirdi, şimdi ise sayfalar gerçekten siliniyor ve cache işlevleri de kayboluyor; veriyi ele alış biçimimizi giderek unuttuk. Ama AI ile birlikte verinin değeri yeniden yükseldi. Geri bildirim verilip sonuçlara yansıtıldığı bir güçlendirme çağına giriyoruz. Donanım, algoritmalar, veri, araçlar, protokoller gibi her yönde ilerleme var. Hâlâ daha fazla deney, daha fazla GPU ve büyük veri merkezleri gerekiyor; şu anda darboğaz orada. Büyük şirketler haftalarca, aylarca büyük modeller eğitiyor.

    • “Görüntü segmentasyonu kodu üretti” denmesi, aslında süslü biçimde Stack Overflow verisini kopyalayıp yapıştırmaktan ibaret. Eskiden Google ile bilgi aramakla aynı çizgide. Dışarıdan yeni ve etkileyici görünse de özünde GIS’te restoran bulmak kadar bir şey gibi geliyor. Gerçek dünyada ortada reasoning yok; sadece veriye dayalı korelasyon çıktısı var. Yine de faydalı, ama sınırları da net.

    • HN’de AI/ML konusundaki havanın diğer teknolojilere kıyasla neden bu kadar bölündüğünü, herkesin kendi rasyonel perspektifinden yorumlamak gerekir. Bunun devrim niteliğinde olduğunu düşünen bakış da, veri hırsızlığı ve mahremiyetin göz ardı edilmesine dair kaygılar da makul temellere sahip. Önce farklı bakışların varlığını kabul etmek, sonra kendi pozisyonumu kısa süreliğine geri çekip karşı tarafı gerçekten anlamaya çalışmak önemli.

    • Programcının temel rolü insan dilini bilgisayar diline çevirmektir. LLM’ler bu sınıra açıkça giriyor. Ne kadar derine ilerleyeceği belirsiz ama bariyer çoktan aşılmış durumda. Bu durum korkudan tehdit algısına kadar pek çok biçimde yorumlanabilir. Yıllarca cilalanmış, yüksek gelir getiren becerilere yönelik bir tehdit bu; programcılar tamamen yer değiştirmese bile, yüz binlerce dolarlık maaşları zar zor koruyacak bir noktaya gelmek bile yeterince tehditkâr.

    • HN zaten her zaman “bu yeni ve moda teknoloji gerçek mi, yanılsama mı?” diye bölünürdü. Farklı teknolojilerde bu tartışmalar sürekli tekrar ediyor. Hatta bazen benim de kendi pozisyonum değişti. Sonunda dışarıdan göründüğü kadar farklı olmadığını düşünüyorum.

    • Buna karşılık “AI bilimi devrimleştirecek” söylemi, dayanaklarının çok önüne geçmiş gibi hissettiriyor.

  • Yazının başında sanki tüm AI abartılıymış gibi görünüyor ama aslında eleştirilen şey PINN adlı belirli bir mimari. Sonunda da DL modelleriyle PDE’leri daha hızlı çözmeye dair başarılardan söz ediliyor.

    • Sorun sadece PINN’lerle sınırlı değil, çok daha geniş. PINN’lerin pek iyi olmadığı uzun zamandır biliniyor ama fizik problemlerinde ML kullanımının genel başarısızlığı da yaygın. ML’in iyi çalıştığı durumlar ya (1) veri çok bol ve alan çok dar olduğunda (ör. MLIP), ya da (2) devasa veri ve büyük modeller kullanıldığında (AlphaFold). Oysa fizik problemlerindeki çoğu ML çalışması bu ikisinin ortasında kalıyor: deney verisi az, simülasyon pahalı, veri kümesi ve model boyutu da kararsız. Sonuçta herkes deniyor, başarısız oluyor, ama yine de makale çıkarıyor. Ünlü laboratuvarlardan ya da PI’lardan geliyorsa ya da “ilginç” görünüyorsa iyi dergilerde yer buluyor ve sadece atıflar artıyor. Sonunda verinin yalnızca bir kısmını kopyalayabilen sistemlerle kalıyoruz; başkalarının da genellenebilirliği artırmaya odaklanması gerektiği sonucu çıkıyor.

    • Yazarın yaptığı şey PINN’lerle sınırlı değil. Çeşitli modelleri sistematik olarak analiz eden bir makale de yazmış ve bunun için ayrı bir bölüm de var.

    • PINN yerine hangi AI çözümünü koyarsanız koyun yine abartı bulursunuz. Bugüne kadar gerçekçi değerlendirme şu oldu: AI’nin pratik faydası “uzmanların basit işlerini otomatikleştirmek ve her şeyi üç kez doğrulamak gerekmesi” düzeyinde.

  • Harika bir analiz ve örnekler. Bir diğer sorun da şu: AI makaleleri çoğu zaman yeni ve “resmî” dergilerde yayımlanma oranı düşük olsa bile çok atıf alıyor. Yeniden üretim ya da iddiaların doğrulanması gerçekten zor, çünkü araştırma yöntemleri ve veriler her yıl değişiyor. Sonuçların geçmişteki model özelliklerinden mi kaynaklandığı, yoksa genellenebilir olup olmadığı da belirsiz.

    • Bilim insanı ya da araştırmacı değilim ama istatistik veya veri yorumuna dayalı sonuçlara her zaman önce şüpheyle yaklaşırım.
  • Blog sahibinin adını (“Timothy B. Lee”) görünce, HTTP ve web’in mucidi olan 70 yaş üstü kişinin böyle ileri düzey bir blog yürüttüğünü sanıp şaşırdım.