“Öncü yapay zeka tıbbi uzman araçları yendi” diyen makale yeniden incelendi — değerlendiriciler arası uyum 0,10, değerlendiriciler de katılımcı

flamehaven01 · 2026-07-02T14:58:33+09:00

Kısa özet Nature Medicine’da 12 Haziran 2026’da yayımlanan “General-purpose large language models outperform specialized clinical AI tools on medical benchmarks” başlıklı makalede, GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6 gibi genel amaçlı öncü modellerin OpenEvidence, UpToDate AI gibi tıbba özel yapay zeka araçlarını geride bıraktığı açıklandı OpenEvidence ve UpToDate AI, hekimlerin muayene sırasında gerçek zamanlı kanıt bulup kullandığı klinik karar destek araçları; hastane ortamlarında hâlihazırda kullanılan ürünler Makale yayımlandıktan hemen sonra hızla yayıldı; yayımdan sonra, yazarın rakip bir tıbbi yapay zeka girişimini işlettiği ve geçmişte OpenEvidence’dan API erişimi isteyip reddedildiği yönünde çıkar çatışması şüpheleri gündeme geldi Yazarın metodolojiyi bizzat yeniden doğrulaması sonucunda, sıralamanın kendisini desteklemeyi zorlaştıran birden fazla istatistiksel kusur tespit edildi Makalenin yapısı ve yüzeydeki sonucu Değerlendirme üç aşamada yapıldı MedQA’dan 500 soru ile tıbbi bilgi değerlendirmesi HealthBench’ten 500 soru ile klinik uyum değerlendirmesi Gerçek klinik sorgulardan 100 adet (RCQ) için ABD’li 12 klinisyen tarafından toplam 1.800 değerlendirme Sonuç, öncü modellerin üç değerlendirmenin tamamında uzman klinik araçların önüne geçtiği; model büyüklüğü ve hizalama yönteminin, alana özel ince ayardan daha önemli etkenler olabileceği yönünde Puanlama güvenilirliği sorunu Değerlendiriciler arası uyumu gösteren Krippendorff's alpha, RCQ’de 0,10~0,20 çıktı Bu ölçütte 0, rastlantı düzeyinde tutarlılık; 1 ise kusursuz uzlaşma anlamına gelir. Sıralama yapmak için kullanıldığında genelde 0,67 ve üzeri istenir Makalenin temel grafiği (modellerin üstünlüğünü gösteren Figure 2c), bu kadar düşük uzlaşmaya sahip puanların ortalamasından üretiliyor Jürinin aynı zamanda değerlendirme konusu olduğu yapı HealthBench değerlendirmesi, bir LLM’in başka LLM’lerin yanıtlarını puanlaması şeklinde yapılıyor; jüri yalnızca değerlendirme konusu olan GPT-5.2, Gemini 3.1 Pro ve Claude Opus 4.6 modellerinden oluşuyor Klinik amaçlı özel araçlar jüriden çıkarılmış HealthBench, OpenAI tarafından oluşturulmuş bir benchmark; aynı OpenAI’ın GPT-5.2 modeli de bu benchmark’ta değerlendiriliyor Kendi kendini veya benzer aileden modelleri daha cömert puanlama eğilimi olan self-preference bias zaten bilinen bir olgu; bu yapıda söz konusu yanlılığı eleyecek bir mekanizma yok Sınav kağıdını önceden görmeye benzer sorun MedQA ve HealthBench, uzun süredir internette açık olan veri kümeleri Öncü modeller devasa internet metinleriyle eğitildiği için, bu soru ve yanıtları eğitim sürecinde zaten görmüş olma ihtimalleri var Makale de bu olasılığı kabul ediyor, ancak bunun sonuçları gerçekte ne kadar etkilediğini hesaplamıyor İstatistiksel işlem sorunu Aynı soruya birden fazla modelin ve birden fazla değerlendiricinin puan verdiği 1.704 gözlem, birbirinden bağımsızmış gibi ele alınıyor Aynı sorudan çıkan puanlar, o sorunun zorluğu nedeniyle birbiriyle ilişkilidir; bunu yok saymak, sonucu olduğundan daha istatistiksel olarak kesin gösteren pseudoreplication’a yol açar Ayrıca UpToDate’in %19 ret oranı ile Google AI Overview’in %6 ret oranını karşılaştıran Fisher's exact test sonucu makalede P=0,10 olarak verilmiş Ham verilerle (19/100’e karşı 6/100) doğrudan hesaplandığında p değeri yaklaşık 0,009 çıkıyor. Makalenin belirttiği 0,05 anlamlılık düzeyine göre bu anlamlı bir farktır; düzeltme yöntemi açıklanmadığı sürece bu farkın açıklanması gerekir Değerlendirme koşullarının kendisi farklıydı Öncü modeller, temperature 0 ile deterministik API yöntemiyle değerlendirildi Klinik araçlar ise tarayıcı arayüzü üzerinden değerlendirildi. Her seferinde farklı sonuçlar üretmeleri mümkün ve iç prompt’ları da açıklanmış değil Reddedilen yanıtlar toplama dahil edilmedi. UpToDate yanıtların %19’unu reddettiği için geriye görece daha kolay sorulara ait puanlar kaldı; öncü modeller ise yalnızca %1~3 oranında reddettiği için tüm soru dağılımına ait puanlar olduğu gibi kaldı Başka benchmark kullanıldığında başka sonuç çıkıyor Ayrı bir medRxiv çalışması, ChatGPT Health’in gerçek acil durumların %51,6’sını olduğundan düşük aciliyette sınıflandırdığını (undertriage) gösteren aynı triyaj benchmark’ını OpenEvidence’a uyguladı OpenEvidence’ın olduğundan düşük sınıflandırma oranı %12,5’ti; bu, ChatGPT Health’in dörtte biri düzeyindeydi Aynı araç bile hangi benchmark ile değerlendirildiğine bağlı olarak çok farklı sonuçlar verebiliyor. Benchmark seçiminin kendisi, sonucu belirleyen bir değişken Bu makale neden şimdi önemli? OpenEvidence, ABD’de on binlerce hekimin her gün muayene sırasında kullandığı bir araç. Bu karşılaştırma akademik bir soru değil; bugün hastanelerin hangi aracı devreye alacağına karar verme sorusu 2026, hastaneler ve sigorta şirketlerinin tıbbi yapay zeka tedarik sözleşmelerini fiilen imzaladığı dönem. Tek bir benchmark makalesi, sözleşme ve benimseme kararlarının dayanağı olarak doğrudan kullanılabilir Nature Medicine’da yayımlanan bir makale, yayımlanır yayımlanmaz otorite kazanıp yayılıyor. Yapısal kusurları ortaya koyan yeniden inceleme yayımdan birkaç gün sonra geldi, ancak klinisyenler o gün eğitim içeriklerini zaten değiştirmişti Tedarik kararlarına veya klinik kılavuzlara bir kez yansıdığında, kusurlar ortaya çıksa bile sözleşmeleri ve uygulamaları geri döndürmek zaman ve maliyet gerektirir Tıbbi yapay zeka benchmark’ları aralıksız yayımlanıyor; ancak bunları bağımsız biçimde yeniden doğrulayacak altyapı ve insan kaynağı bu hıza yetişemiyor. Bu, tek bir makalenin sorunu değil, tekrarlanacak bir yapının sorunu Sonuç Bu yazı, makalenin yöneliminin yanlış olduğunu iddia etmiyor Ancak jürinin kendi kendini puanlaması, düşük değerlendiriciler arası uyum, eğitim verisi kirlenmesi olasılığı ve istatistiksel işlem hataları aynı anda üst üste binmiş durumda. Bu kadar kusurun biriktiği sonuçların tedarik sözleşmelerini ve klinik kılavuzları belirlemesine izin verilmemeli Makale sonucunda güçlü bir güven ifade ediyor, ancak veriler bu güveni taşımıyor. Sorun yazarın niyeti değil, doğrulama yapılmadan güvenin önce dolaşıma girdiği yapı Tıbbi yapay zekanın hastanelere girdiği bu dönemde, tek bir benchmark makalesinden önce, o makaleyi doğrulayacak bağımsız bir denetim sistemi kurulmalı. İddiaların hızı doğrulamanın hızını bugünkü gibi aşmaya devam ederse, aynı şey bir sonraki makalede de tekrarlanacak

(flamehaven.space)

1 puan yazan flamehaven01 4 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş

Kısa özet

Nature Medicine’da 12 Haziran 2026’da yayımlanan “General-purpose large language models outperform specialized clinical AI tools on medical benchmarks” başlıklı makalede, GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6 gibi genel amaçlı öncü modellerin OpenEvidence, UpToDate AI gibi tıbba özel yapay zeka araçlarını geride bıraktığı açıklandı
OpenEvidence ve UpToDate AI, hekimlerin muayene sırasında gerçek zamanlı kanıt bulup kullandığı klinik karar destek araçları; hastane ortamlarında hâlihazırda kullanılan ürünler
Makale yayımlandıktan hemen sonra hızla yayıldı; yayımdan sonra, yazarın rakip bir tıbbi yapay zeka girişimini işlettiği ve geçmişte OpenEvidence’dan API erişimi isteyip reddedildiği yönünde çıkar çatışması şüpheleri gündeme geldi
Yazarın metodolojiyi bizzat yeniden doğrulaması sonucunda, sıralamanın kendisini desteklemeyi zorlaştıran birden fazla istatistiksel kusur tespit edildi

Makalenin yapısı ve yüzeydeki sonucu

Değerlendirme üç aşamada yapıldı
- MedQA’dan 500 soru ile tıbbi bilgi değerlendirmesi
- HealthBench’ten 500 soru ile klinik uyum değerlendirmesi
- Gerçek klinik sorgulardan 100 adet (RCQ) için ABD’li 12 klinisyen tarafından toplam 1.800 değerlendirme
Sonuç, öncü modellerin üç değerlendirmenin tamamında uzman klinik araçların önüne geçtiği; model büyüklüğü ve hizalama yönteminin, alana özel ince ayardan daha önemli etkenler olabileceği yönünde

Puanlama güvenilirliği sorunu

Değerlendiriciler arası uyumu gösteren Krippendorff's alpha, RCQ’de 0,10~0,20 çıktı
Bu ölçütte 0, rastlantı düzeyinde tutarlılık; 1 ise kusursuz uzlaşma anlamına gelir. Sıralama yapmak için kullanıldığında genelde 0,67 ve üzeri istenir
Makalenin temel grafiği (modellerin üstünlüğünü gösteren Figure 2c), bu kadar düşük uzlaşmaya sahip puanların ortalamasından üretiliyor

Jürinin aynı zamanda değerlendirme konusu olduğu yapı

HealthBench değerlendirmesi, bir LLM’in başka LLM’lerin yanıtlarını puanlaması şeklinde yapılıyor; jüri yalnızca değerlendirme konusu olan GPT-5.2, Gemini 3.1 Pro ve Claude Opus 4.6 modellerinden oluşuyor
Klinik amaçlı özel araçlar jüriden çıkarılmış
HealthBench, OpenAI tarafından oluşturulmuş bir benchmark; aynı OpenAI’ın GPT-5.2 modeli de bu benchmark’ta değerlendiriliyor
Kendi kendini veya benzer aileden modelleri daha cömert puanlama eğilimi olan self-preference bias zaten bilinen bir olgu; bu yapıda söz konusu yanlılığı eleyecek bir mekanizma yok

Sınav kağıdını önceden görmeye benzer sorun

MedQA ve HealthBench, uzun süredir internette açık olan veri kümeleri
Öncü modeller devasa internet metinleriyle eğitildiği için, bu soru ve yanıtları eğitim sürecinde zaten görmüş olma ihtimalleri var
Makale de bu olasılığı kabul ediyor, ancak bunun sonuçları gerçekte ne kadar etkilediğini hesaplamıyor

İstatistiksel işlem sorunu

Aynı soruya birden fazla modelin ve birden fazla değerlendiricinin puan verdiği 1.704 gözlem, birbirinden bağımsızmış gibi ele alınıyor
Aynı sorudan çıkan puanlar, o sorunun zorluğu nedeniyle birbiriyle ilişkilidir; bunu yok saymak, sonucu olduğundan daha istatistiksel olarak kesin gösteren pseudoreplication’a yol açar
Ayrıca UpToDate’in %19 ret oranı ile Google AI Overview’in %6 ret oranını karşılaştıran Fisher's exact test sonucu makalede P=0,10 olarak verilmiş
Ham verilerle (19/100’e karşı 6/100) doğrudan hesaplandığında p değeri yaklaşık 0,009 çıkıyor. Makalenin belirttiği 0,05 anlamlılık düzeyine göre bu anlamlı bir farktır; düzeltme yöntemi açıklanmadığı sürece bu farkın açıklanması gerekir

Değerlendirme koşullarının kendisi farklıydı

Öncü modeller, temperature 0 ile deterministik API yöntemiyle değerlendirildi
Klinik araçlar ise tarayıcı arayüzü üzerinden değerlendirildi. Her seferinde farklı sonuçlar üretmeleri mümkün ve iç prompt’ları da açıklanmış değil
Reddedilen yanıtlar toplama dahil edilmedi. UpToDate yanıtların %19’unu reddettiği için geriye görece daha kolay sorulara ait puanlar kaldı; öncü modeller ise yalnızca %1~3 oranında reddettiği için tüm soru dağılımına ait puanlar olduğu gibi kaldı

Başka benchmark kullanıldığında başka sonuç çıkıyor

Ayrı bir medRxiv çalışması, ChatGPT Health’in gerçek acil durumların %51,6’sını olduğundan düşük aciliyette sınıflandırdığını (undertriage) gösteren aynı triyaj benchmark’ını OpenEvidence’a uyguladı
OpenEvidence’ın olduğundan düşük sınıflandırma oranı %12,5’ti; bu, ChatGPT Health’in dörtte biri düzeyindeydi
Aynı araç bile hangi benchmark ile değerlendirildiğine bağlı olarak çok farklı sonuçlar verebiliyor. Benchmark seçiminin kendisi, sonucu belirleyen bir değişken

Bu makale neden şimdi önemli?

OpenEvidence, ABD’de on binlerce hekimin her gün muayene sırasında kullandığı bir araç. Bu karşılaştırma akademik bir soru değil; bugün hastanelerin hangi aracı devreye alacağına karar verme sorusu
2026, hastaneler ve sigorta şirketlerinin tıbbi yapay zeka tedarik sözleşmelerini fiilen imzaladığı dönem. Tek bir benchmark makalesi, sözleşme ve benimseme kararlarının dayanağı olarak doğrudan kullanılabilir
Nature Medicine’da yayımlanan bir makale, yayımlanır yayımlanmaz otorite kazanıp yayılıyor. Yapısal kusurları ortaya koyan yeniden inceleme yayımdan birkaç gün sonra geldi, ancak klinisyenler o gün eğitim içeriklerini zaten değiştirmişti
Tedarik kararlarına veya klinik kılavuzlara bir kez yansıdığında, kusurlar ortaya çıksa bile sözleşmeleri ve uygulamaları geri döndürmek zaman ve maliyet gerektirir
Tıbbi yapay zeka benchmark’ları aralıksız yayımlanıyor; ancak bunları bağımsız biçimde yeniden doğrulayacak altyapı ve insan kaynağı bu hıza yetişemiyor. Bu, tek bir makalenin sorunu değil, tekrarlanacak bir yapının sorunu

Sonuç

Bu yazı, makalenin yöneliminin yanlış olduğunu iddia etmiyor
Ancak jürinin kendi kendini puanlaması, düşük değerlendiriciler arası uyum, eğitim verisi kirlenmesi olasılığı ve istatistiksel işlem hataları aynı anda üst üste binmiş durumda. Bu kadar kusurun biriktiği sonuçların tedarik sözleşmelerini ve klinik kılavuzları belirlemesine izin verilmemeli
Makale sonucunda güçlü bir güven ifade ediyor, ancak veriler bu güveni taşımıyor. Sorun yazarın niyeti değil, doğrulama yapılmadan güvenin önce dolaşıma girdiği yapı
Tıbbi yapay zekanın hastanelere girdiği bu dönemde, tek bir benchmark makalesinden önce, o makaleyi doğrulayacak bağımsız bir denetim sistemi kurulmalı. İddiaların hızı doğrulamanın hızını bugünkü gibi aşmaya devam ederse, aynı şey bir sonraki makalede de tekrarlanacak