OpenAI o1, acil servisteki hastaların %67’sini doğru teşhis etti; triyaj hekimleri %50-55’te kaldı

(theguardian.com)

1 puan yazan GN⁺ 2 시간 전 | 1 yorum | WhatsApp'ta paylaş

Harvard araştırmasında OpenAI’nin o1 akıl yürütme modeli, acil serviste ilk triyaj teşhislerinde insan doktorlardan daha yüksek doğruluk gösterdi ve LLM’lerin klinik akıl yürütme ölçütlerinin çoğunu aştığı değerlendirildi
Boston’daki bir hastanenin acil servisine gelen 76 hastanın standart elektronik sağlık kayıtlarını okuma deneyinde o1, vakaların %67’sinde doğru ya da çok yakın teşhis üretti; iki insan doktor ise %50-55 aralığında kaldı
Daha fazla ayrıntı verildiğinde yapay zekanın doğruluğu %82’ye çıktı; uzman insanlarda bu oran %70-79 oldu, ancak fark istatistiksel olarak anlamlı değildi
Yapay zeka, antibiyotik tedavisi ya da yaşam sonu bakım planlaması gibi uzun vadeli tedavi planı görevlerinde de 46 doktoru geride bıraktı; 5 klinik vakada yapay zekanın puanı %89, mevcut kaynakları kullanan insan doktorlarınki ise %34 oldu
Araştırma yalnızca metinle aktarılabilen hasta verilerini karşılaştırdı ve sözsüz ipuçlarını test etmedi; bu nedenle gerçek doktorların yerini almaktan çok belge temelli bir ikinci görüş rolüne daha yakın bir sınırlılığı var

Harvard acil servis triyaj deneyinin temel sonuçları

Harvard araştırmasında yapay zeka sistemi, acil tıptaki triyaj durumlarında teşhis doğruluğunda insan doktorlardan daha yüksek performans gösterdi
Science’ta yayımlanan sonuçlar, yüzlerce doktor yanıtı ile yapay zeka yanıtını karşılaştıran deneyden çıktı ve bağımsız uzmanlar bunun yapay zekanın klinik akıl yürütmesinde “gerçek bir ilerleme” gösterdiğini değerlendirdi
Büyük dil modellerinin (LLM), “klinik akıl yürütmenin çoğu benchmark’ını aştığı” ifade edildi
Yapay zekanın üstünlüğü, bilginin az olduğu ve hızlı karar gerektiren acil servis ilk triyaj durumlarında özellikle belirginleşti

76 acil servis hastasıyla teşhis deneyi

Boston’daki bir hastanenin acil servisine gelen 76 hasta üzerinde yapılan deneyde, yapay zeka ile iki insan doktor aynı standart elektronik sağlık kayıtlarını okuyarak teşhis koydu
Elektronik sağlık kayıtları genellikle yaşamsal bulguları, demografik bilgileri ve hemşirenin hastanın neden geldiğini yazdığı birkaç cümleyi içeriyordu
OpenAI’nin o1 akıl yürütme modeli, vakaların %67’sinde doğru ya da çok yakın teşhisi buldu; insan doktorlar ise %50-55 doğruluk elde etti
Daha fazla ayrıntı sunulduğunda yapay zekanın teşhis doğruluğu %82’ye yükseldi; uzman insanlar %70-79 aralığında kaldı, ancak bu fark istatistiksel olarak anlamlı değildi

Uzun vadeli tedavi planı deneyi

Yapay zeka, antibiyotik tedavisi önermek veya yaşam sonu sürecini planlamak gibi uzun vadeli tedavi planları hazırlama görevlerinde de daha geniş bir doktor grubunu geride bıraktı
Yapay zeka ve 46 doktor, 5 klinik vaka çalışmasını inceledi; yapay zeka, mevcut kaynakları kullanan insan doktorlardan anlamlı biçimde daha iyi planlar oluşturdu
Puanlar yapay zeka için %89, arama motoru gibi mevcut kaynakları kullanan insan doktorlar için ise %34 oldu

Araştırmanın sınırları ve sağlık hizmetindeki rol değişimi

Bu araştırma, insanlarla yapay zekayı yalnızca metinle aktarılabilen hasta verileri üzerinden karşılaştırdı
Hastanın ağrı düzeyi ya da görsel görünümü gibi sözsüz ipuçlarını yapay zekanın okuyabilme yeteneği test edilmedi
Bu nedenle yapay zeka, gerçek acil servis doktorunun yerini almaktan ziyade belge temelli ikinci görüş veren bir klinisyene daha yakın bir rol üstlendi
Harvard Medical School AI araştırma enstitüsünü yöneten Arjun Manrai, bu sonucun yapay zekanın doktorların yerini alacağı anlamına gelmediğini; bunun tıbbı yeniden şekillendirecek “çok derin bir teknolojik değişimin” sürdüğünü gösterdiğini söyledi
Araştırmanın yürütüldüğü Boston’daki Beth Israel Deaconess medical centre doktoru Adam Rodman, yapay zeka LLM’lerini “son on yılların en etkili teknolojilerinden biri” olarak görüyor
Rodman, önümüzdeki 10 yılda yapay zekanın doktorların yerini almaktan çok doktorlar, hastalar ve yapay zeka sistemlerinin birlikte yer aldığı yeni bir üçlü bakım modeline katılacağını düşünüyor

Klinik vakalar ve yapay zekanın akıl yürütmesi

Harvard araştırmasındaki bir vakada hasta, akciğerde pıhtı ve kötüleşen belirtiler gösteriyordu
İnsan doktorlar antikoagülanların başarısız olduğuna karar verdi, ancak yapay zeka hastanın lupus öyküsünün akciğer iltihabına yol açabileceğini yakaladı
Yapay zekanın değerlendirmesinin doğru olduğu doğrulandı

Sağlıkta yapay zeka kullanımı zaten yayılıyor

Geçen ay yayımlanan araştırmaya göre ABD’li doktorların yaklaşık 5’te 1’i teşhis desteğinde zaten yapay zeka kullanıyor
Birleşik Krallık’ta doktorların %16’sı yapay zekayı her gün kullanıyor, buna ek olarak %15’i haftalık kullanıyor
Royal College of Physicians’ın yakın tarihli anketine göre Birleşik Krallık’taki doktorların yaygın kullanım alanlarından biri klinik karar verme
Birleşik Krallık’taki doktorların en büyük kaygısı, yapay zeka hataları ve sorumluluk riski oldu
Yapay zeka sağlık şirketlerine milyarlarca dolar yatırım yapılırken, yapay zeka hatalarının sonuçlarına ilişkin sorular sürüyor
Rodman, şu anda sorumluluğun belirlenmesine yönelik resmi bir çerçeve olmadığını söyledi ve hastaların nihayetinde yaşam ve ölüm kararları ile zor tedavi kararlarında insan rehberliği istediğini vurguladı

Dış uzman değerlendirmeleri ve dikkat noktaları

University of Edinburgh Tıbbi Bilişim Merkezi eş direktörü Prof. Ewen Harrison, bu araştırmanın önemli olduğunu ve bu tür sistemlerin artık yalnızca tıp sınavlarını geçmek ya da yapay test vakalarını çözmekle sınırlı kalmadığını söyledi
Harrison, yapay zekanın özellikle daha geniş bir olası teşhis yelpazesini değerlendirmek ve kritik olanı kaçırmamak gerektiğinde klinisyenler için yararlı bir ikinci görüş aracı gibi görünmeye başladığını düşünüyor
University of Sheffield Matematik ve Fizik Bilimleri Fakültesi’nden Dr. Wei Xing, bazı diğer sonuçların doktorların bağımsız düşünmek yerine bilinçsizce yapay zekanın yanıtını izleyebileceğine işaret ettiğini söyledi
Xing, yapay zeka klinik ortamda daha rutin kullanıldıkça bu eğilimin güçlenebileceğini belirtti
Xing, yapay zekanın hangi hastalarda daha kötü teşhis koyduğuna, yaşlı hastalarda ya da ana dili İngilizce olmayan hastalarda daha fazla zorlanıp zorlanmadığına dair bilginin eksik olduğunu vurguladı
Xing, bu araştırmanın yapay zekanın günlük klinik kullanım için güvenli olduğunu ya da halkın serbestçe erişebildiği yapay zeka araçlarını tıbbi tavsiyenin yerine koyması gerektiğini kanıtlamadığını söyledi

1 yorum

GN⁺ 2 시간 전

Hacker News yorumları

Bu tür çalışmalarda benchmark’ı bozmak fazla kolay olduğu için güvenmekte çok temkinliyim
Örneğin yakın tarihli bir makalede yapay zeka, röntgen yorumlamada radyologları geçti, ama yapay zekanın aslında röntgenlere erişimi bile yoktu: https://arxiv.org/pdf/2603.21687
Bu, mevcut “genel amaçlı göğüs röntgeni anlayışı için büyük ölçekli görsel soru-cevap benchmark’ı”ydı; bilerek bozulmuş bir şey de değildi
Üstelik röntgen yorumlamada insan radyolog gerçekten röntgene bakar. Ama bu haberin bağlamında insan doktor, acil servis hastasını teşhis ederken sadece notlara bakarak karar vermez
Gerekli olmayan, alışık olmadıkları ve eğitimini almadıkları bir görevi yaptırıp sonra “AI daha iyi” demek gibi; notlar tuhaf bir yan kanaldan cevabı sızdırmamış olsa bile buna şaşırmazdım
Bu, çalışmanın kesinlikle yanlış olduğu ya da kasıtlı biçimde yanıltıcı olduğu anlamına gelmiyor, ama tek bir çalışmadan güçlü sonuçlar çıkarmam
- Bu özel çalışma için katılıyorum, ama uzun vadede doktorların AI modellerinden daha iyi kalacağı fikrini pek anlamıyorum
  Sonuçta tıp; bilgi, deneyim, zeka ve belki de örüntü tanıma meselesi, ve bunlarda en iyi AI modellerinin, özellikle yalnızca tıbba odaklananların, çoğu insanı yani doktorları açık farkla geçmesini beklemek gerekir
  Yazılım mühendisleri için zaten böyle varsayıyorsak bunu bu alana da uygulamalıyız; ayrıca gerçekçi olmak gerekirse son birkaç ayda, iki acil servis ziyareti dahil, her doktor gördüğümde hepsi ChatGPT kullanıyordu. Şaka değil, şok ediciydi
  O yüzden gerçekten merak ediyorum: sorumluluk ve etiği bir kenara bırakıp tamamen teknik olarak bakarsak, üst düzey bir tıbbi AI’ın harika bir insan doktorun performansını kalıcı olarak ya da en azından onlarca yıl boyunca yakalayamayacağına veya aşamayacağına inandıran somut yetenek ya da yetenek kombinasyonu nedir?
- İlginç biçimde, ChatGPT Health kullanan yakın tarihli bir çalışma oldukça farklı sonuçlar verdi: https://www.nature.com/articles/s41591-026-04297-7
  Burada acil triyajını yaklaşık yarı yarıya yanlış yaptı
- Makalenin sonuna kadar okursanız, hem doktorlara hem de büyük dil modellerine tüm vaka kaydını okuttuklarında istatistiksel anlamlılık açısından farkın ortadan kalktığı görülüyor
  Başlıktaki sayılar, sadece hemşire notlarına bakarak tahmini teşhis yapılmasının sonucunu alıntılıyor. Benim tahminim, seçilmiş vaka çalışmalarında büyük dil modelinin doktora göre daha rahat tahminde bulunmuş olabileceği yönünde
- Doktorların insan bilişsel önyargıları yüzünden gözden kaçırdıkları şeyler var ve insanlar en aşina oldukları örüntülere saplanmaya daha yatkın, bu yüzden kulağa makul geliyor
- Bağlantı verilen makalenin tamamını henüz okumadım ama röntgene erişim verilmediğinde sonucun halüsinasyon ya da serap olduğu varsayımı ilginç
  Çok makul bir sonuç gibi duruyor ama başka bir olasılığı atlıyor. Röntgen sonucu daha az doğru hale mi getiriyor?
Hem haber hem de makale bana oldukça abartılı göründü; buna şaşırdım. Bu, doktorları büyük dil modeline ciddi biçimde avantaj sağlayan bir düzenekte yarıştırmak ve klinik pratiği temsil etmiyor
Bu tür akıl yürütme vakaları, doktorlar için bir benchmark değil, bir öğrenme aracıdır
Teşhis öncelikle hastanın doğru biçimde tasvir edilmesine bağlıdır ve hangi bilgilerin toplandığı ayırıcı tanıya göre değişir
Doktorun becerilerinden biri, farklı kaynaklardan bilgi toplayıp önemli olanı ayıklamaktır. Hasta net ifade edemeyebilir ya da sözel olmayan biri olabilir; bakıcıdan veya aileden bilgi almak gerekebilir
Anamnez almak başlı başına bir beceridir, fizik muayene de öyle; burada ise bu veriler zaten hazır verilmiş
Özellikle o1’in eğitim verisinde yer almış olabilecek sorularda, düz metin örüntü tanıma açısından doktoru geçmesi hiç şaşırtıcı değil, ama klinik olarak faydalı bir karşılaştırma gibi gelmiyor
Hangi testlerin isteneceğine, görüntüleme yapılıp yapılmayacağına, öyküdeki gereksiz bilgilerin elenip elenmeyeceğine karar vermek de ayrı bir beceri ve bunu teşhis oluşturmaktan ayırmak zor
- Yanlış teşhis vakalarının analizini de görmek gerekir. İnsan doktorun amacı en yüksek doğruluğu elde etmek değil, hastaya giden toplam zararı azaltmaktır
  Bazı durumlarda olasılık açısından X’i seçmek avantajlı olsa da fark büyük olmayabilir ve daha güvenli tercih, önce başka olasılıkları dışlamak ya da birden fazla olasılığı kapsayan güvenli bir tedaviye başlamak olabilir
  Bu değerlendirmede sadece “yüksek puan” almak, mutlaka iyi bir tıbbi uygulama anlamına gelmez
Bu çalışmaya çok ağırlık vermem ama yine de birçok kişinin öz teşhiste büyük dil modellerinin faydalı olduğunu kabul edebileceğini düşünüyorum
ABD’de doktor ilgisine ve tedaviye erişmek zor olduğu için, sonuçta insanın bunu kendi başına yapması gereken bir gerçeklik var
10 yıl önce doktorlar, hastaların Google’da buldukları şeylerle gelmesinden şikayet ederdi ama artık başka seçenek yok gibi görünüyor
Örneğin ayak ve ayak bileği sorunları için bir ayak uzmanına gittim; ayaktaki sorunu röntgenle teşhis etti ama ayak bileği için röntgende hiçbir şey görünmediğini söyleyip omuz silkerek geçti
Bana ayrılan 15 dakika doldu ve nedenini ya da nasıl düzeltileceğini bilmeden çıktım. Büyük dil modeline 5 dakika sorunca, ayak teşhisiyle de uyumlu makul bir ayak bileği nedeni elde ettim
- Büyük dil modellerini tıpta kullanmanın ABD sağlık sistemindeki sorunlara uygun çözüm olduğunu düşünmüyorum
  Sağlık şirketleri AI’ı hasta bakımını iyileştirmek yerine günde daha fazla hasta görmek için kullanmayı seçerse durum daha da kötüleşebilir
“AI ve iki insan doktora aynı standart elektronik sağlık kaydını okuttuk” demek, insan doktorun yeteneklerini sınırlayan bir koşul
İnsan doktor, hastayı kısa bir süre gözlemleyerek bile çok daha fazla bilgi elde edebilir
- Aynısı AI için de söylenemez mi?
- Tersinden bakarsak, “klinik görüşme gibi yorumun kolayca kontrolden çıkabildiği materyallere erişen uzman kadar tehlikeli çok az şey vardır” diyenler de var
  https://entropicthoughts.com/arithmetic-models-better-than-y...
- Katılıyorum. Bu teknolojinin en iyi kullanımının iki tarafın güçlü yönlerini birlikte kullanmak olduğunu düşünüyorum
  AI kayıtları tarayıp olası teşhisler önerebilir, doktor da hastayı gözlemledikten sonra bunları gözden geçirebilir
  Ayrıca yaygın hastalıklar gerçekten de yaygındır. Bunun hem doktorları hem de büyük dil modellerini ne kadar önyargılı hale getirdiğini de merak ediyorum
  Burun akıntısı ve öksürükle gelen birine grip teşhisi koyarsanız çoğu zaman doğru çıkması muhtemeldir
- Çok önemli bir gözlem gibi geliyor. Buna ek olarak, AI’ın kullanabilmesi için kısa videolar veya fotoğraflar eklemeyi denemek de ilginç olabilir
- Bir de sağlık ağları artık doktorlara elektronik sağlık kaydı girişi için AI transkripsiyon yazılımı kullanmaları yönünde baskı yapıyor
  Doktorlar ve hemşireler kendileri yazmak zorunda kalmadıkları için memnun ama oldukça sık oluşan transkripsiyon hatalarının kayıtlarda düzgünce gözden geçirilip geçirilmediği tam bir felaket
  Şimdi bu kusurlu transkriptleri bir AI teşhis sistemine veriyorsunuz ve iş bitiyor. AI bunu kutsal gerçek gibi kabul eder ama doktor “Bir dakika, bu da ne?” deyip durabilir
Sadece kendim ve eşim için değil, köpeklerimi teşhis etmeye çalışırken de büyük dil modellerini kullandım
AI tabanlı veterinerlikte büyük bir fırsat olduğuna eminim. Özellikle bunun daha sonra yerel hayvan klinikleri arasında muayene ya da ameliyat fiyatları için teklif toplamaya kadar genişlemesi harika olurdu
Yerel veteriner fiyatları 10 kattan fazla değişebiliyor. 80 yaşındaki annem ve kayınvalidem, fazla ücret alan veterinerler tarafından sık sık sömürüldü; evcil hayvanları hayatlarının büyük bir parçası olduğu için baskıya karşı çok savunmasızlar
Buradaki olumsuz tepkileri anlamıyorum. Bilgisayarın bunun %30’una bile ulaşabilmesi başlı başına şaşırtıcı
AI’a ve OpenAI gibi frontier laboratuvarlara ya da Google bağlantılı ekiplere karşı fazla büyük ve mantıksız bir düşmanlık var gibi görünüyor
- AI’a karşı olumsuz bir hava olduğu doğru. Ama bu çalışmanın da gerçek sınırlamaları var
  Bence asıl nokta, AI’ın hasta vaka notlarını almış olması ama hastayı doğrudan görmemiş olması
  Bu, doktorların eğitim aldığı biçimden farklı ve doktorun yapabileceklerini gereksiz yere sınırlıyor. Doktorun kattığı değerin önemli bir bölümü hastayla konuşmaktan geliyor
  Başlık, AI doktorların yerini alacakmış gibi duyuluyor ama gerçekte daha çok “AI bu dar görevi doktordan daha iyi yapabiliyor” noktasında
  Kullanılan notlar da zaten büyük ihtimalle bir doktor tarafından yazılmış olabilir
  Asıl ödül, doktor+AI kombinasyonunun doktorun tek başına olduğundan daha iyi hale gelmesi olur. Doktorun vaka notlarını okuyup sonuca varması gerektiğinde artık AI’ın gayet iyi önerilerinden yararlanabilir
- Neden anlaşılmaz geldiğini anlamıyorum. Çok oy alan eleştirel yorumların çoğu gerekçelerini gayet iyi açıklıyor ve bu gerekçeler aşırı teknik de değil
  Risk ne kadar büyükse normalde daha az değil, daha fazla eleştirel olmamız gerekir
- Enron için de aynısını söylediler
  Şüphecilik fazla olduğunda bile inanılmaz derecede faydalı bir araçtır
- Sağlık sektöründeki tanıdıkların, kartelin desteklediği rahat ve yüksek gelirli mesleklerinden çıkıp benim gibi AI’ın işlerini alabileceğine dair varoluşsal korku hissetmeye başlamasına açıkçası seviniyorum
60 yaşındayım, bizzat bir AI tıbbi yardımcı aracı [1] geliştirdim ve çeşitli belirtiler için yoğun biçimde kullandım; çok memnunum
Bazı test sonuçlarını analiz ettikten sonra doktorun başlangıçta düşünmediği göstergeleri bile önerdi
Doktorun yerini almaz ama basit semptomların öz teşhisinde ve ikinci görüş almakta çok faydalı bir araç
[1] https://mediconsulta.net (DeepSeek)
Merak ediyorum, şu %33’ün %50~45’in bir alt kümesi olup olmadığını bilmek isterim
Alt küme değilse bu hatalar ne kadar ciddiydi? Ölüm daha mı fazlaydı? İyileşme süresi daha mı uzundu? Bu fark pratikte neye yol açtı?
Makale: https://www.science.org/doi/10.1126/science.adz4433 (30 Nisan 2026)
%67 ile %55 arasındaki fark ne kadar büyük? Çalışma, doktorlarla aynı hastalar üzerinde mi yapıldı?
Her bir durumu iki tarafın nasıl değerlendirdiğini ve neden farklı sonuçlara vardıklarını yan yana karşılaştırmadılarsa bunun bilimsel olarak ne kadar etkili olabileceğini bilmiyorum
Kalan %43 içinde doktorların AI’ın göremediği kör noktaları fark edemeyeceğini kim garanti edebilir
Araçların amacı ikame değil, çabayı birleştirmektir
Bu tür yüzdeleri halka bu şekilde sunmak epey sorumsuzca

OpenAI o1, acil servisteki hastaların %67’sini doğru teşhis etti; triyaj hekimleri %50-55’te kaldı

Harvard acil servis triyaj deneyinin temel sonuçları

76 acil servis hastasıyla teşhis deneyi

Uzun vadeli tedavi planı deneyi

Araştırmanın sınırları ve sağlık hizmetindeki rol değişimi

Klinik vakalar ve yapay zekanın akıl yürütmesi

Sağlıkta yapay zeka kullanımı zaten yayılıyor

Dış uzman değerlendirmeleri ve dikkat noktaları

İlgili okumalar

1 yorum

Hacker News yorumları