- Derin öğrenme modellerini kullanan enzim işlevi tahmini makaleleri büyük ilgi ve atıf alırken, fact-checking yoluyla hataları ortaya koyan makaleler neredeyse hiç ilgi görmüyor
- Transformer tabanlı modellerle 22 milyon enzim verisini eğitip 450 doğrulanmamış enzim işlevini tahmin eden bir çalışma Nature Communications'ta yayımlandı
- Ancak devam niteliğindeki bir makalede yüzlerce hatalı tahmin, veri tekrarları ve biyolojik olarak imkânsız sonuçlar ortaya çıkarıldı
- Uzmanların derinlemesine analizi olmadan yapay zeka sonuçlarının güvenilirliğini değerlendirmek zor; yanlış verilerin yayılmaya devam etme riski büyüyor
- Gösterişli yapay zeka modellerinden çok, temel veri doğrulama ve alan bilgisinin entegrasyonu öneminin yeniden altı çiziliyor
Deep learning gets the glory, deep fact checking gets ignored
- Derin öğrenme tabanlı enzim işlevi tahmini makalesi, 22 milyon enzim verisini öğrenip Transformer modeliyle 450 doğrulanmamış enzim işlevini tahmin etti; Nature Communications'ta yayımlanarak büyük ilgi gördü
- Ancak sonraki bir makalede yüzlerce yanlış tahmin, mevcut veritabanlarıyla örtüşen sonuçlar, biyolojik olarak imkânsız çıktılar ve tekrarlayan hatalar bulundu
- Örneğin AI, E. coli'deki belirli bir genin işlevini yanlış tahmin etti; oysa önceki araştırmalar bunun o işlev olmadığını zaten göstermişti
- Bu tür hataları ortaya çıkaran makale bioRxiv'de yayımlandı, ancak görüntüleme ve atıf sayıları çok düşük kaldı; bu da yayın teşvik yapısındaki sorunu gösterdi
- Uzmanlar, AI modellemesinden çok veri doğrulama ve alan uzmanlığının gerekliliğini vurguluyor ve yanlış bilgilerin veritabanları üzerinden yeniden yayılma riskine dikkat çekiyor
The Problem of Determining Enzyme Function
- Enzimler, canlılarda önemli tepkimeleri hızlandırır ve farklı işlevler Enzyme Commission (EC) numaralarıyla sınıflandırılır
- Amino asit dizilerinden EC numarası tahmin etme işi, girdisi ve çıktısı net olduğu için makine öğrenmesine uygun kabul edilir
- UniProt veritabanında 22 milyondan fazla enzim ve EC numarası yer aldığından eğitim verisi bol durumdadır
An Approach with Transformers (AI model)
- Araştırmacılar, Transformer, convolution katmanları ve lineer katmanlardan oluşan bir model kullanarak doğrulanmamış enzimlerin işlevini tahmin etti
- Dikkat çekici olan nokta, modelin yorumlanabilirliği için high attention region'ların biyolojik olarak anlamlı olup olmadığının analiz edilmesiydi
- 450 doğrulanmamış enzimden yalnızca 3'ü deneysel olarak (in vitro) doğrulandı ve bunun doğruluğu kanıtladığı öne sürüldü
The Errors
- Nature makalesinde sunulan 450 'yeni' sonucun 135'i aslında mevcut veritabanlarında zaten vardı
- 148 sonuç çok yüksek tekrar içeriyordu; aynı enzim işlevinin birden çok kez tahmin edilmesi gibi biyolojik olarak imkânsız çok sayıda hata doğrulandı
- E. coli'nin üretmediği maddelerin sentez enzimleri olarak yanlış tahminler yapılması ya da mevcut deneysel sonuçlarla çelişen birçok örnek de bulundu
- Veri sızıntısı (data leakage) olasılığı da gündeme geldi; özellikle gerçek ground truth bulunmayan alanlardaki tahminlerde sık hata görüldü
The Microbiology Detective
- Takip makalesinin yazarı Dr. de Crécy-Lagard, Nature makalesindeki tahminlerden biri olan bir enzimin (yciO) geçmiş çalışmalarla açıkça çeliştiğini tespit etti
- yciO ile TsaC evrimsel olarak ilişkili olsa da, gerçek deneylerde yciO'nun TsaC'nin işlevini yerine getiremediği defalarca gösterildi
- Yalnızca yapısal benzerliğe bakarak işlevleri aynı sayan algoritmik sınırlamalar ortaya çıktı
- Enzim işlevini belirlerken gen çevresi bağlamı, substrat bağlanması, metabolik yolaklar gibi çeşitli kanıtların birlikte değerlendirilmesi gerekiyor
Hundreds of Likely Erroneous Results
- Takip makalesinin ekibi, Nature makalesindeki 450 tahminden 135'inin zaten veritabanına kayıtlı içerikler olduğunu doğruladı
- 148 vakanın, aynı işlevin tekrar tekrar tahmin edilmesi gibi veri yanlılığı, yetersiz özellikler ve mimari sınırlardan kaynaklanan problemler olduğu analiz edildi
- Birçok sonucun hatalı olduğu, biyolojik bağlam ve mevcut literatür taramasıyla gösterildi
Rethinking Enzyme Classification and “True Unknowns”
- Enzim işlevi tahmininde iki görev iç içe geçiyor: bilinen işlevlerin yayılması (propagation) ve gerçekten bilinmeyen işlevlerin keşfi (discovery)
- Supervised ML, gerçekten bilinmeyen işlevleri tahmin etmede yapısal olarak sınırlı
- Yanlış tahminlerin UniProt gibi veritabanlarına girilmesi ve modellerin yeniden bu verilerle eğitilmesi, hataların döngüsel olarak çoğalmasına yol açıyor
Need for Domain Expertise
- AI araştırmalarının aksine, veri doğrulama ve alan uzmanlarının derin analizi yeterli teşvik görmediği için araştırmacıların daha az ilgisini çekiyor
- Nitekim makale, yüksek riskli AI projelerinin başarısızlık nedenlerinden birinin alan bilgisinin yetersiz uygulanması olduğunu gösteriyor
- Derin öğrenme makalelerinin çoğu, alan uzmanlarının ayrıntılı doğrulamasından geçmiyor; dışarıdan etkileyici görünen çalışmalar bile gerçekte çok sayıda hata içerebiliyor
Sonuç ve öneriler
- Gösterişli AI modelleri geliştirmekten çok, temel veri doğrulama ve alan bilgisinin entegrasyonunun önemi vurgulanıyor
- Araştırma teşvikleri ve desteğinin gerçek doğrulama çalışmalarına daha fazla odaklanması gerektiği savunuluyor
- Hata doğrulama ve veri kalitesinin iyileştirilmesinin, uzun vadede AI gelişimine daha büyük katkı sağlayabileceği belirtiliyor
1 yorum
Hacker News görüşleri
Sık sık veri sızıntısı ihtimalini unutmayan bir eğilim olduğunu düşünüyorum. Güçlü kanıtlarla veri sızıntısı olmadığını gösterene kadar her zaman var olduğunu varsaymak gerekir; tersine, sızıntı olmadığını ispatlama yükü yazarlara aittir. Küçük veri setlerinde sızıntı çok daha kolay oluşur; veriyi baştan sona doğrudan inceleyebildiğiniz için hatta daha da kolay ortaya çıkabilir. Verinin küçük ve fark edilmesi zor hatalarla bozulması son derece yaygındır. Artık insanların tamamını gözden geçiremeyeceği kadar devasa veri setleriyle çalışıyoruz; filtrelemenin kusurlu olduğunu herkes biliyorken sızıntı olmadığına inanmak mümkün değil. "Filtreledik" denebilir ama gerçekten sızıntı yok denemez. Fiilen erişebildiğimiz veri setlerinde bile sık sık sorun buluyoruz. Bunları sürekli yaşarken neden verinin sağlam olduğunu varsaymayı sürdürdüğümüzü bilmiyorum. Muhtemelen aşırı beklentinin beslediği bir kendini kandırma hali. Sorunu çözmek için önce gerçeği doğru görmek gerekir.
Her sistemin kusuru vardır. Asıl mesele, ne kadar kusurun kabul edilebilir olduğu. Örneğin Medicare ve Medicaid'de dolandırıcılık vakalarının oranı %7,66 idi; tutar olarak devasa olsa da bu sistemin tamamen başarısız olduğu anlamına gelmez, kalan %93 düzgün çalışmıştır. AI modelleri için de aynı şey geçerli: hata oranı %10 ise bu tüm sistemin kötü olduğu anlamına gelmez; bunun kabul edilebilir bir oran olup olmadığını tartışmak gerekir. Kaynak
İspat yükünün kimde olduğu meselesi, birçok kişinin düşündüğü kadar inançlar için yol gösterici bir ilke değil.
AI'nın araştırma yapmasından önce, önce mevcut araştırmaları yeniden üretmeyi başarması gerektiğini düşünüyorum. Örneğin bir derin öğrenme makalesini AI'ya verip bunu uygulamasını sağlarsanız gerçek yeteneğini değerlendirebilirsiniz. Bu temel olmadan yeni fikirler beklemek zor.
İlk başta "makalenin sadece ilk kısmını AI'ya verelim, kalanını AI tamamlasın" diye bir öneri geleceğini sanmıştım. Eğer böyle bir doğrulama seviyesi bile henüz mümkün değilse, AI'nın yenilikçi keşifler yapabileceğine inanmıyorum.
OpenAI bununla ilgili bir benchmark hazırladı: paperbench bağlantısı
Tamamen şeffaf, doğrulanabilir bir kayıt sistemi olmalı ve makalenin veri setine önceden sızmamış olduğu da garanti edilmeli. Makalelerde akademik sahtekârlık nadir ama zaman zaman görülüyor; LLM'ler ise rahatlıkla yanlış bilgi üretebiliyor.
Örneğin, bir makalenin deneysel istatistik verilerini AI'ya verip ham veriyi yeniden üretmesini isteyebilirsiniz.
Bu fikir yalnızca yeterince ilginç değil, aynı zamanda yeniden üretilebilirlik doğrulaması sorununu da bir ölçüde çözebilir. Yine de AI'nın yeniden ürettiği araştırmaların sonunda insanlar tarafından dikkatle incelenmesi gerekecek. Gerçekçi olarak, bugünkü LLM'lerin üstlenebileceği çeşitli roller var; örneğin hakemlik sürecinde veri işleme kodunun doğrulanmasına yardımcı olmak, literatür taramasını desteklemek ve fikir üretiminde beyin fırtınası aracı olarak kullanılmak.
"Nature Communications" ile "Nature" tamamen farklı ağırlığa sahiptir. Onlardan aynı şekilde söz etmemek gerekir. Ayrıca altmetrics çok anlamlı bir metrik değil. Kamu ilgisinin sıcaklığını ölçmek istemiyorsanız, bilimsel atıflarla pek ilgili değildir.
Derin öğrenme makalelerinin çoğunda alan uzmanlarının çıktıları gerçekten çok ayrıntılı biçimde doğruladığına pek rastlanmıyor. Etkileyici görünen makalelerin önemli bir kısmı acaba sıkı bir doğrulamadan geçemeyebilir mi diye merak ediyorum. Ama benim alanımdaki AI makaleleri gerçekten hem benim tarafımdan hem de başka uzmanlarca sıkça kontrol ediliyor gibi görünüyor. Yine de bilgisayar bilimi ya da yazılım tarafındaki sonuçları doğrulamak, biyolojiye kıyasla daha kolaymış gibi geliyor bana (ya da biyolojiyi iyi bilmediğim için öyle hissediyor olabilirim).
Biyoloji alanında etiketlerin geçerliliğini doğrulamanın kendisi bile çoğu zaman yıllar alır. OP'nin örnek verdiği vaka da tesadüfen, birinin yıllar harcayıp belirli tahminleri önceden doğrulamış olduğu çok şanslı bir örnek. Çoğu insan kariyerinden 3-5 yıl ayırıp rastgele model tahminlerini doğrulamaya girişmez.
Benim alanımda bir makalede bu tür teknikler kullanıldığında insanların ayrıntılı inceleme yapıp eleştiri getirmesi yaygındır. Sorun şu ki bu eleştiriler başka alanlardaki insanlar tarafından çoğu zaman ciddiye alınmıyor.
AI'nın ihtiyaç duyduğu şeyin bir 'gerçeklik denetleyicisi' alt sistemi olduğu söyleniyor. LLM'lerde durum, sanki bilinçdışımızın sürekli gevezelik eden bir gürültü üretip dışarı dökmesi gibi. Oysa beynimizde "Söylediğim şey yanlışlanabilir bir gerçek mi?" gibi bir iç filtre var ve bu yalanları eliyor. (Tabii bunun herkes için geçerli olmadığı yönünde bir şaka da vardı.)
Buna tamamen katılıyorum. Birkaç ay önce, gece geç saatte yarı uykulu halde beynimin sürekli çeşitli ifadeler ve düşünceler ürettiğini fark ettim. Bazen tüm bu fikirlerin bir filtreden geçip cümlelere dönüştüğünü neredeyse canlı biçimde hissediyordum. Bana özgü tuhaf bir deneyim olabilir ama AI'da da böyle bir algoritmanın kesinlikle gerekli olduğunu düşündürüyor. Doktoraya başlarsam bunu araştırma konusu yapmak isterim.
İnsanın 'gerçeklik denetleyicisi' sistemi GAN'deki discriminator'a benziyor ama güçlü biçimde duygulardan etkileniyor. Psikoloji araştırmalarının gösterdiği üzere, insanların doğru-yanlış değerlendirme devreleri her zaman önce duygusal sinyallerle başlar ve kökünde inançlar vardır. Biri benim inançlarımla güçlü biçimde çelişen bir şey söylediğinde, önce duygusal tepki gelir; rasyonel yargı daha sonra devreye girer.
Araştırmacı olarak LLM'lerle yaşadığım deneyimle örtüşüyor. Metni anlama ve üretme becerilerine derin bir hayranlık duydum, ancak çok daha zor ve çözülmemiş problemlerde anında yanıt vermeleri hep hayal kırıklığı yarattı. Karmaşık soruların üzerine zaman ayırıp düşünmek gerekirken, LLM'ler bu derinlik ya da düşünme olmadan, son derece özgüvenli bir şekilde (tamamen yanlış olsa bile) cevap verme eğiliminde.
Rachel Thomas'ın harika bir yazısı. Derin öğrenmenin sonuçta [üretken] bir bilgi erişim aracı olduğu iddiasını yeniden doğrulayan bir örnek. Eğitim verisi gerçek dünyadaki alanı yansıtsa da özünde çok kayıplı bir veri setidir. Örneğin gen verileri/etiketleri biyolojinin gerçek yapısını kusursuz biçimde temsil etmez; bu yüzden sonuçlar da sık sık yanlış ya da anlamsız olabilir. Hatta tuhaf biçimde fazla iyi uyuştuğunda, tasarım gereği bir bilgi erişim aracı olan LLM'de veri sızıntısı karışmış olabileceği de söyleniyor. Bilgi teorisi açısından bakınca, veri setinin sınırları tüm modeller için ortak ve bilinmeyen bir risk unsurudur. Sonuç olarak sorun algoritmanın kusuru değil, eğitim veri setinin kendisi. Doğal dil alanında çok esnek çalışıyoruz ve küçük bir çocuk bile bir metni okuyup anlamlı olup olmadığını anlayabiliyor. LLM'lerin NLP'de başarılı olmasının nedeni de bu tür veriler. Buna karşılık, ham verinin özünü sadakatle yansıtamadığı karmaşık alanlarda sınırlar çok daha fazla.
Yanlış bilginin bilime de sızdığı yönünde bir kaygı var. Dayanaksız ama kışkırtıcı söylemlerin, gerçek araştırma desteğinden daha fazla ilgi görmesi; sosyal medyada gördüğümüz durumun bilime de yansıması olarak eleştiriliyor. Ama Twitter ile Nature dergisini aynı kefeye koyamayız; saygın akademik dergiler ve hakemlik sistemi, bu tür sorunlara karşı bir 'son savunma hattı' olarak görülüyordu. Öyleyse bu olay gerçekten Nature'ın bir başarısızlığı mı sorusu ortaya çıkıyor.
Etkisi yüksek dergilerde geri çekilen veya doğrulanmamış makale oranının daha yüksek olduğuna dair istatistikler olduğunu hatırlamak gerekir. Bunun temel nedeni tartışmalı olabilir, ama tek bir makale gerçeği kanıtlamaz; gerçek güven ölçütü, farklı kurumlar ve farklı araştırma ekiplerinin sonuçları bağımsız biçimde doğrulamasıdır.
Bilimde yanlış bilgi sorunu yeni büyümeye başlamadı; birkaç yıldır "yeniden üretilebilirlik krizi" tartışması zaten sürüyor.
ML Quantum Wormhole makalesi örneğinde olduğu gibi, hatalı araştırmaların artık popüler bilim haberlerini aşarak saygın dergilerde de yayımlanıyor olması hayal kırıklığı yaratıyor. Bu, basit bir hatadan çok, araştırmacıların ve hakemlerin uygun doğrulamayı atladığı pek çok örneğin bulunduğunu düşündürüyor. Kişisel olarak geleneksel dergi sistemine zaten kuşkuyla bakıyordum ve daha özgür akademik yayıncılığı destekliyordum; ama şimdi sanki dergiler kendi güvenilirliklerini bizzat aşındırıyor. Yine de en büyük kaygım, bunun sonunda halkın bilime duyduğu güveni daha da zedelemesi. Bilim içindeki incelikli tartışmaları kamunun fark etmesi zaten zor; bu tür olaylar da bilim karşıtı çevrelere sadece yeni bir koz veriyor.
Bullshit asymmetry principle (Brandolini yasası) aklıma geliyor. Bu ilkenin bağlantısı
Tek bir güzel ve başarılı ML/AI örneğini dramatik biçimde öne çıkarıp, başarısız olmuş onlarca denemeyi görmezden gelmeye eğilimliyiz.