“Öncü yapay zeka tıbbi uzman araçları yendi” diyen makale yeniden incelendi — değerlendiriciler arası uyum 0,10, değerlendiriciler de katılımcı
(flamehaven.space)Kısa özet
- Nature Medicine’da 12 Haziran 2026’da yayımlanan “General-purpose large language models outperform specialized clinical AI tools on medical benchmarks” başlıklı makalede, GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6 gibi genel amaçlı öncü modellerin OpenEvidence, UpToDate AI gibi tıbba özel yapay zeka araçlarını geride bıraktığı açıklandı
- OpenEvidence ve UpToDate AI, hekimlerin muayene sırasında gerçek zamanlı kanıt bulup kullandığı klinik karar destek araçları; hastane ortamlarında hâlihazırda kullanılan ürünler
- Makale yayımlandıktan hemen sonra hızla yayıldı; yayımdan sonra, yazarın rakip bir tıbbi yapay zeka girişimini işlettiği ve geçmişte OpenEvidence’dan API erişimi isteyip reddedildiği yönünde çıkar çatışması şüpheleri gündeme geldi
- Yazarın metodolojiyi bizzat yeniden doğrulaması sonucunda, sıralamanın kendisini desteklemeyi zorlaştıran birden fazla istatistiksel kusur tespit edildi
Makalenin yapısı ve yüzeydeki sonucu
- Değerlendirme üç aşamada yapıldı
- MedQA’dan 500 soru ile tıbbi bilgi değerlendirmesi
- HealthBench’ten 500 soru ile klinik uyum değerlendirmesi
- Gerçek klinik sorgulardan 100 adet (RCQ) için ABD’li 12 klinisyen tarafından toplam 1.800 değerlendirme
- Sonuç, öncü modellerin üç değerlendirmenin tamamında uzman klinik araçların önüne geçtiği; model büyüklüğü ve hizalama yönteminin, alana özel ince ayardan daha önemli etkenler olabileceği yönünde
Puanlama güvenilirliği sorunu
- Değerlendiriciler arası uyumu gösteren Krippendorff's alpha, RCQ’de 0,10~0,20 çıktı
- Bu ölçütte 0, rastlantı düzeyinde tutarlılık; 1 ise kusursuz uzlaşma anlamına gelir. Sıralama yapmak için kullanıldığında genelde 0,67 ve üzeri istenir
- Makalenin temel grafiği (modellerin üstünlüğünü gösteren Figure 2c), bu kadar düşük uzlaşmaya sahip puanların ortalamasından üretiliyor
Jürinin aynı zamanda değerlendirme konusu olduğu yapı
- HealthBench değerlendirmesi, bir LLM’in başka LLM’lerin yanıtlarını puanlaması şeklinde yapılıyor; jüri yalnızca değerlendirme konusu olan GPT-5.2, Gemini 3.1 Pro ve Claude Opus 4.6 modellerinden oluşuyor
- Klinik amaçlı özel araçlar jüriden çıkarılmış
- HealthBench, OpenAI tarafından oluşturulmuş bir benchmark; aynı OpenAI’ın GPT-5.2 modeli de bu benchmark’ta değerlendiriliyor
- Kendi kendini veya benzer aileden modelleri daha cömert puanlama eğilimi olan self-preference bias zaten bilinen bir olgu; bu yapıda söz konusu yanlılığı eleyecek bir mekanizma yok
Sınav kağıdını önceden görmeye benzer sorun
- MedQA ve HealthBench, uzun süredir internette açık olan veri kümeleri
- Öncü modeller devasa internet metinleriyle eğitildiği için, bu soru ve yanıtları eğitim sürecinde zaten görmüş olma ihtimalleri var
- Makale de bu olasılığı kabul ediyor, ancak bunun sonuçları gerçekte ne kadar etkilediğini hesaplamıyor
İstatistiksel işlem sorunu
- Aynı soruya birden fazla modelin ve birden fazla değerlendiricinin puan verdiği 1.704 gözlem, birbirinden bağımsızmış gibi ele alınıyor
- Aynı sorudan çıkan puanlar, o sorunun zorluğu nedeniyle birbiriyle ilişkilidir; bunu yok saymak, sonucu olduğundan daha istatistiksel olarak kesin gösteren pseudoreplication’a yol açar
- Ayrıca UpToDate’in %19 ret oranı ile Google AI Overview’in %6 ret oranını karşılaştıran Fisher's exact test sonucu makalede P=0,10 olarak verilmiş
- Ham verilerle (19/100’e karşı 6/100) doğrudan hesaplandığında p değeri yaklaşık 0,009 çıkıyor. Makalenin belirttiği 0,05 anlamlılık düzeyine göre bu anlamlı bir farktır; düzeltme yöntemi açıklanmadığı sürece bu farkın açıklanması gerekir
Değerlendirme koşullarının kendisi farklıydı
- Öncü modeller, temperature 0 ile deterministik API yöntemiyle değerlendirildi
- Klinik araçlar ise tarayıcı arayüzü üzerinden değerlendirildi. Her seferinde farklı sonuçlar üretmeleri mümkün ve iç prompt’ları da açıklanmış değil
- Reddedilen yanıtlar toplama dahil edilmedi. UpToDate yanıtların %19’unu reddettiği için geriye görece daha kolay sorulara ait puanlar kaldı; öncü modeller ise yalnızca %1~3 oranında reddettiği için tüm soru dağılımına ait puanlar olduğu gibi kaldı
Başka benchmark kullanıldığında başka sonuç çıkıyor
- Ayrı bir medRxiv çalışması, ChatGPT Health’in gerçek acil durumların %51,6’sını olduğundan düşük aciliyette sınıflandırdığını (undertriage) gösteren aynı triyaj benchmark’ını OpenEvidence’a uyguladı
- OpenEvidence’ın olduğundan düşük sınıflandırma oranı %12,5’ti; bu, ChatGPT Health’in dörtte biri düzeyindeydi
- Aynı araç bile hangi benchmark ile değerlendirildiğine bağlı olarak çok farklı sonuçlar verebiliyor. Benchmark seçiminin kendisi, sonucu belirleyen bir değişken
Bu makale neden şimdi önemli?
- OpenEvidence, ABD’de on binlerce hekimin her gün muayene sırasında kullandığı bir araç. Bu karşılaştırma akademik bir soru değil; bugün hastanelerin hangi aracı devreye alacağına karar verme sorusu
- 2026, hastaneler ve sigorta şirketlerinin tıbbi yapay zeka tedarik sözleşmelerini fiilen imzaladığı dönem. Tek bir benchmark makalesi, sözleşme ve benimseme kararlarının dayanağı olarak doğrudan kullanılabilir
- Nature Medicine’da yayımlanan bir makale, yayımlanır yayımlanmaz otorite kazanıp yayılıyor. Yapısal kusurları ortaya koyan yeniden inceleme yayımdan birkaç gün sonra geldi, ancak klinisyenler o gün eğitim içeriklerini zaten değiştirmişti
- Tedarik kararlarına veya klinik kılavuzlara bir kez yansıdığında, kusurlar ortaya çıksa bile sözleşmeleri ve uygulamaları geri döndürmek zaman ve maliyet gerektirir
- Tıbbi yapay zeka benchmark’ları aralıksız yayımlanıyor; ancak bunları bağımsız biçimde yeniden doğrulayacak altyapı ve insan kaynağı bu hıza yetişemiyor. Bu, tek bir makalenin sorunu değil, tekrarlanacak bir yapının sorunu
Sonuç
- Bu yazı, makalenin yöneliminin yanlış olduğunu iddia etmiyor
- Ancak jürinin kendi kendini puanlaması, düşük değerlendiriciler arası uyum, eğitim verisi kirlenmesi olasılığı ve istatistiksel işlem hataları aynı anda üst üste binmiş durumda. Bu kadar kusurun biriktiği sonuçların tedarik sözleşmelerini ve klinik kılavuzları belirlemesine izin verilmemeli
- Makale sonucunda güçlü bir güven ifade ediyor, ancak veriler bu güveni taşımıyor. Sorun yazarın niyeti değil, doğrulama yapılmadan güvenin önce dolaşıma girdiği yapı
- Tıbbi yapay zekanın hastanelere girdiği bu dönemde, tek bir benchmark makalesinden önce, o makaleyi doğrulayacak bağımsız bir denetim sistemi kurulmalı. İddiaların hızı doğrulamanın hızını bugünkü gibi aşmaya devam ederse, aynı şey bir sonraki makalede de tekrarlanacak
Henüz yorum yok.