- Harvard araştırmasında OpenAI’nin o1 akıl yürütme modeli, acil serviste ilk triyaj teşhislerinde insan doktorlardan daha yüksek doğruluk gösterdi ve LLM’lerin klinik akıl yürütme ölçütlerinin çoğunu aştığı değerlendirildi
- Boston’daki bir hastanenin acil servisine gelen 76 hastanın standart elektronik sağlık kayıtlarını okuma deneyinde o1, vakaların %67’sinde doğru ya da çok yakın teşhis üretti; iki insan doktor ise %50-55 aralığında kaldı
- Daha fazla ayrıntı verildiğinde yapay zekanın doğruluğu %82’ye çıktı; uzman insanlarda bu oran %70-79 oldu, ancak fark istatistiksel olarak anlamlı değildi
- Yapay zeka, antibiyotik tedavisi ya da yaşam sonu bakım planlaması gibi uzun vadeli tedavi planı görevlerinde de 46 doktoru geride bıraktı; 5 klinik vakada yapay zekanın puanı %89, mevcut kaynakları kullanan insan doktorlarınki ise %34 oldu
- Araştırma yalnızca metinle aktarılabilen hasta verilerini karşılaştırdı ve sözsüz ipuçlarını test etmedi; bu nedenle gerçek doktorların yerini almaktan çok belge temelli bir ikinci görüş rolüne daha yakın bir sınırlılığı var
Harvard acil servis triyaj deneyinin temel sonuçları
- Harvard araştırmasında yapay zeka sistemi, acil tıptaki triyaj durumlarında teşhis doğruluğunda insan doktorlardan daha yüksek performans gösterdi
- Science’ta yayımlanan sonuçlar, yüzlerce doktor yanıtı ile yapay zeka yanıtını karşılaştıran deneyden çıktı ve bağımsız uzmanlar bunun yapay zekanın klinik akıl yürütmesinde “gerçek bir ilerleme” gösterdiğini değerlendirdi
- Büyük dil modellerinin (LLM), “klinik akıl yürütmenin çoğu benchmark’ını aştığı” ifade edildi
- Yapay zekanın üstünlüğü, bilginin az olduğu ve hızlı karar gerektiren acil servis ilk triyaj durumlarında özellikle belirginleşti
76 acil servis hastasıyla teşhis deneyi
- Boston’daki bir hastanenin acil servisine gelen 76 hasta üzerinde yapılan deneyde, yapay zeka ile iki insan doktor aynı standart elektronik sağlık kayıtlarını okuyarak teşhis koydu
- Elektronik sağlık kayıtları genellikle yaşamsal bulguları, demografik bilgileri ve hemşirenin hastanın neden geldiğini yazdığı birkaç cümleyi içeriyordu
- OpenAI’nin o1 akıl yürütme modeli, vakaların %67’sinde doğru ya da çok yakın teşhisi buldu; insan doktorlar ise %50-55 doğruluk elde etti
- Daha fazla ayrıntı sunulduğunda yapay zekanın teşhis doğruluğu %82’ye yükseldi; uzman insanlar %70-79 aralığında kaldı, ancak bu fark istatistiksel olarak anlamlı değildi
Uzun vadeli tedavi planı deneyi
- Yapay zeka, antibiyotik tedavisi önermek veya yaşam sonu sürecini planlamak gibi uzun vadeli tedavi planları hazırlama görevlerinde de daha geniş bir doktor grubunu geride bıraktı
- Yapay zeka ve 46 doktor, 5 klinik vaka çalışmasını inceledi; yapay zeka, mevcut kaynakları kullanan insan doktorlardan anlamlı biçimde daha iyi planlar oluşturdu
- Puanlar yapay zeka için %89, arama motoru gibi mevcut kaynakları kullanan insan doktorlar için ise %34 oldu
Araştırmanın sınırları ve sağlık hizmetindeki rol değişimi
- Bu araştırma, insanlarla yapay zekayı yalnızca metinle aktarılabilen hasta verileri üzerinden karşılaştırdı
- Hastanın ağrı düzeyi ya da görsel görünümü gibi sözsüz ipuçlarını yapay zekanın okuyabilme yeteneği test edilmedi
- Bu nedenle yapay zeka, gerçek acil servis doktorunun yerini almaktan ziyade belge temelli ikinci görüş veren bir klinisyene daha yakın bir rol üstlendi
- Harvard Medical School AI araştırma enstitüsünü yöneten Arjun Manrai, bu sonucun yapay zekanın doktorların yerini alacağı anlamına gelmediğini; bunun tıbbı yeniden şekillendirecek “çok derin bir teknolojik değişimin” sürdüğünü gösterdiğini söyledi
- Araştırmanın yürütüldüğü Boston’daki Beth Israel Deaconess medical centre doktoru Adam Rodman, yapay zeka LLM’lerini “son on yılların en etkili teknolojilerinden biri” olarak görüyor
- Rodman, önümüzdeki 10 yılda yapay zekanın doktorların yerini almaktan çok doktorlar, hastalar ve yapay zeka sistemlerinin birlikte yer aldığı yeni bir üçlü bakım modeline katılacağını düşünüyor
Klinik vakalar ve yapay zekanın akıl yürütmesi
- Harvard araştırmasındaki bir vakada hasta, akciğerde pıhtı ve kötüleşen belirtiler gösteriyordu
- İnsan doktorlar antikoagülanların başarısız olduğuna karar verdi, ancak yapay zeka hastanın lupus öyküsünün akciğer iltihabına yol açabileceğini yakaladı
- Yapay zekanın değerlendirmesinin doğru olduğu doğrulandı
Sağlıkta yapay zeka kullanımı zaten yayılıyor
- Geçen ay yayımlanan araştırmaya göre ABD’li doktorların yaklaşık 5’te 1’i teşhis desteğinde zaten yapay zeka kullanıyor
- Birleşik Krallık’ta doktorların %16’sı yapay zekayı her gün kullanıyor, buna ek olarak %15’i haftalık kullanıyor
- Royal College of Physicians’ın yakın tarihli anketine göre Birleşik Krallık’taki doktorların yaygın kullanım alanlarından biri klinik karar verme
- Birleşik Krallık’taki doktorların en büyük kaygısı, yapay zeka hataları ve sorumluluk riski oldu
- Yapay zeka sağlık şirketlerine milyarlarca dolar yatırım yapılırken, yapay zeka hatalarının sonuçlarına ilişkin sorular sürüyor
- Rodman, şu anda sorumluluğun belirlenmesine yönelik resmi bir çerçeve olmadığını söyledi ve hastaların nihayetinde yaşam ve ölüm kararları ile zor tedavi kararlarında insan rehberliği istediğini vurguladı
Dış uzman değerlendirmeleri ve dikkat noktaları
- University of Edinburgh Tıbbi Bilişim Merkezi eş direktörü Prof. Ewen Harrison, bu araştırmanın önemli olduğunu ve bu tür sistemlerin artık yalnızca tıp sınavlarını geçmek ya da yapay test vakalarını çözmekle sınırlı kalmadığını söyledi
- Harrison, yapay zekanın özellikle daha geniş bir olası teşhis yelpazesini değerlendirmek ve kritik olanı kaçırmamak gerektiğinde klinisyenler için yararlı bir ikinci görüş aracı gibi görünmeye başladığını düşünüyor
- University of Sheffield Matematik ve Fizik Bilimleri Fakültesi’nden Dr. Wei Xing, bazı diğer sonuçların doktorların bağımsız düşünmek yerine bilinçsizce yapay zekanın yanıtını izleyebileceğine işaret ettiğini söyledi
- Xing, yapay zeka klinik ortamda daha rutin kullanıldıkça bu eğilimin güçlenebileceğini belirtti
- Xing, yapay zekanın hangi hastalarda daha kötü teşhis koyduğuna, yaşlı hastalarda ya da ana dili İngilizce olmayan hastalarda daha fazla zorlanıp zorlanmadığına dair bilginin eksik olduğunu vurguladı
- Xing, bu araştırmanın yapay zekanın günlük klinik kullanım için güvenli olduğunu ya da halkın serbestçe erişebildiği yapay zeka araçlarını tıbbi tavsiyenin yerine koyması gerektiğini kanıtlamadığını söyledi
1 yorum
Hacker News yorumları
Bu tür çalışmalarda benchmark’ı bozmak fazla kolay olduğu için güvenmekte çok temkinliyim
Örneğin yakın tarihli bir makalede yapay zeka, röntgen yorumlamada radyologları geçti, ama yapay zekanın aslında röntgenlere erişimi bile yoktu: https://arxiv.org/pdf/2603.21687
Bu, mevcut “genel amaçlı göğüs röntgeni anlayışı için büyük ölçekli görsel soru-cevap benchmark’ı”ydı; bilerek bozulmuş bir şey de değildi
Üstelik röntgen yorumlamada insan radyolog gerçekten röntgene bakar. Ama bu haberin bağlamında insan doktor, acil servis hastasını teşhis ederken sadece notlara bakarak karar vermez
Gerekli olmayan, alışık olmadıkları ve eğitimini almadıkları bir görevi yaptırıp sonra “AI daha iyi” demek gibi; notlar tuhaf bir yan kanaldan cevabı sızdırmamış olsa bile buna şaşırmazdım
Bu, çalışmanın kesinlikle yanlış olduğu ya da kasıtlı biçimde yanıltıcı olduğu anlamına gelmiyor, ama tek bir çalışmadan güçlü sonuçlar çıkarmam
Sonuçta tıp; bilgi, deneyim, zeka ve belki de örüntü tanıma meselesi, ve bunlarda en iyi AI modellerinin, özellikle yalnızca tıbba odaklananların, çoğu insanı yani doktorları açık farkla geçmesini beklemek gerekir
Yazılım mühendisleri için zaten böyle varsayıyorsak bunu bu alana da uygulamalıyız; ayrıca gerçekçi olmak gerekirse son birkaç ayda, iki acil servis ziyareti dahil, her doktor gördüğümde hepsi ChatGPT kullanıyordu. Şaka değil, şok ediciydi
O yüzden gerçekten merak ediyorum: sorumluluk ve etiği bir kenara bırakıp tamamen teknik olarak bakarsak, üst düzey bir tıbbi AI’ın harika bir insan doktorun performansını kalıcı olarak ya da en azından onlarca yıl boyunca yakalayamayacağına veya aşamayacağına inandıran somut yetenek ya da yetenek kombinasyonu nedir?
Burada acil triyajını yaklaşık yarı yarıya yanlış yaptı
Başlıktaki sayılar, sadece hemşire notlarına bakarak tahmini teşhis yapılmasının sonucunu alıntılıyor. Benim tahminim, seçilmiş vaka çalışmalarında büyük dil modelinin doktora göre daha rahat tahminde bulunmuş olabileceği yönünde
Çok makul bir sonuç gibi duruyor ama başka bir olasılığı atlıyor. Röntgen sonucu daha az doğru hale mi getiriyor?
Hem haber hem de makale bana oldukça abartılı göründü; buna şaşırdım. Bu, doktorları büyük dil modeline ciddi biçimde avantaj sağlayan bir düzenekte yarıştırmak ve klinik pratiği temsil etmiyor
Bu tür akıl yürütme vakaları, doktorlar için bir benchmark değil, bir öğrenme aracıdır
Teşhis öncelikle hastanın doğru biçimde tasvir edilmesine bağlıdır ve hangi bilgilerin toplandığı ayırıcı tanıya göre değişir
Doktorun becerilerinden biri, farklı kaynaklardan bilgi toplayıp önemli olanı ayıklamaktır. Hasta net ifade edemeyebilir ya da sözel olmayan biri olabilir; bakıcıdan veya aileden bilgi almak gerekebilir
Anamnez almak başlı başına bir beceridir, fizik muayene de öyle; burada ise bu veriler zaten hazır verilmiş
Özellikle o1’in eğitim verisinde yer almış olabilecek sorularda, düz metin örüntü tanıma açısından doktoru geçmesi hiç şaşırtıcı değil, ama klinik olarak faydalı bir karşılaştırma gibi gelmiyor
Hangi testlerin isteneceğine, görüntüleme yapılıp yapılmayacağına, öyküdeki gereksiz bilgilerin elenip elenmeyeceğine karar vermek de ayrı bir beceri ve bunu teşhis oluşturmaktan ayırmak zor
Bazı durumlarda olasılık açısından X’i seçmek avantajlı olsa da fark büyük olmayabilir ve daha güvenli tercih, önce başka olasılıkları dışlamak ya da birden fazla olasılığı kapsayan güvenli bir tedaviye başlamak olabilir
Bu değerlendirmede sadece “yüksek puan” almak, mutlaka iyi bir tıbbi uygulama anlamına gelmez
Bu çalışmaya çok ağırlık vermem ama yine de birçok kişinin öz teşhiste büyük dil modellerinin faydalı olduğunu kabul edebileceğini düşünüyorum
ABD’de doktor ilgisine ve tedaviye erişmek zor olduğu için, sonuçta insanın bunu kendi başına yapması gereken bir gerçeklik var
10 yıl önce doktorlar, hastaların Google’da buldukları şeylerle gelmesinden şikayet ederdi ama artık başka seçenek yok gibi görünüyor
Örneğin ayak ve ayak bileği sorunları için bir ayak uzmanına gittim; ayaktaki sorunu röntgenle teşhis etti ama ayak bileği için röntgende hiçbir şey görünmediğini söyleyip omuz silkerek geçti
Bana ayrılan 15 dakika doldu ve nedenini ya da nasıl düzeltileceğini bilmeden çıktım. Büyük dil modeline 5 dakika sorunca, ayak teşhisiyle de uyumlu makul bir ayak bileği nedeni elde ettim
Sağlık şirketleri AI’ı hasta bakımını iyileştirmek yerine günde daha fazla hasta görmek için kullanmayı seçerse durum daha da kötüleşebilir
“AI ve iki insan doktora aynı standart elektronik sağlık kaydını okuttuk” demek, insan doktorun yeteneklerini sınırlayan bir koşul
İnsan doktor, hastayı kısa bir süre gözlemleyerek bile çok daha fazla bilgi elde edebilir
https://entropicthoughts.com/arithmetic-models-better-than-y...
AI kayıtları tarayıp olası teşhisler önerebilir, doktor da hastayı gözlemledikten sonra bunları gözden geçirebilir
Ayrıca yaygın hastalıklar gerçekten de yaygındır. Bunun hem doktorları hem de büyük dil modellerini ne kadar önyargılı hale getirdiğini de merak ediyorum
Burun akıntısı ve öksürükle gelen birine grip teşhisi koyarsanız çoğu zaman doğru çıkması muhtemeldir
Doktorlar ve hemşireler kendileri yazmak zorunda kalmadıkları için memnun ama oldukça sık oluşan transkripsiyon hatalarının kayıtlarda düzgünce gözden geçirilip geçirilmediği tam bir felaket
Şimdi bu kusurlu transkriptleri bir AI teşhis sistemine veriyorsunuz ve iş bitiyor. AI bunu kutsal gerçek gibi kabul eder ama doktor “Bir dakika, bu da ne?” deyip durabilir
Sadece kendim ve eşim için değil, köpeklerimi teşhis etmeye çalışırken de büyük dil modellerini kullandım
AI tabanlı veterinerlikte büyük bir fırsat olduğuna eminim. Özellikle bunun daha sonra yerel hayvan klinikleri arasında muayene ya da ameliyat fiyatları için teklif toplamaya kadar genişlemesi harika olurdu
Yerel veteriner fiyatları 10 kattan fazla değişebiliyor. 80 yaşındaki annem ve kayınvalidem, fazla ücret alan veterinerler tarafından sık sık sömürüldü; evcil hayvanları hayatlarının büyük bir parçası olduğu için baskıya karşı çok savunmasızlar
Buradaki olumsuz tepkileri anlamıyorum. Bilgisayarın bunun %30’una bile ulaşabilmesi başlı başına şaşırtıcı
AI’a ve OpenAI gibi frontier laboratuvarlara ya da Google bağlantılı ekiplere karşı fazla büyük ve mantıksız bir düşmanlık var gibi görünüyor
Bence asıl nokta, AI’ın hasta vaka notlarını almış olması ama hastayı doğrudan görmemiş olması
Bu, doktorların eğitim aldığı biçimden farklı ve doktorun yapabileceklerini gereksiz yere sınırlıyor. Doktorun kattığı değerin önemli bir bölümü hastayla konuşmaktan geliyor
Başlık, AI doktorların yerini alacakmış gibi duyuluyor ama gerçekte daha çok “AI bu dar görevi doktordan daha iyi yapabiliyor” noktasında
Kullanılan notlar da zaten büyük ihtimalle bir doktor tarafından yazılmış olabilir
Asıl ödül, doktor+AI kombinasyonunun doktorun tek başına olduğundan daha iyi hale gelmesi olur. Doktorun vaka notlarını okuyup sonuca varması gerektiğinde artık AI’ın gayet iyi önerilerinden yararlanabilir
Risk ne kadar büyükse normalde daha az değil, daha fazla eleştirel olmamız gerekir
Şüphecilik fazla olduğunda bile inanılmaz derecede faydalı bir araçtır
60 yaşındayım, bizzat bir AI tıbbi yardımcı aracı [1] geliştirdim ve çeşitli belirtiler için yoğun biçimde kullandım; çok memnunum
Bazı test sonuçlarını analiz ettikten sonra doktorun başlangıçta düşünmediği göstergeleri bile önerdi
Doktorun yerini almaz ama basit semptomların öz teşhisinde ve ikinci görüş almakta çok faydalı bir araç
[1] https://mediconsulta.net (DeepSeek)
Merak ediyorum, şu %33’ün %50~45’in bir alt kümesi olup olmadığını bilmek isterim
Alt küme değilse bu hatalar ne kadar ciddiydi? Ölüm daha mı fazlaydı? İyileşme süresi daha mı uzundu? Bu fark pratikte neye yol açtı?
Makale: https://www.science.org/doi/10.1126/science.adz4433 (30 Nisan 2026)
%67 ile %55 arasındaki fark ne kadar büyük? Çalışma, doktorlarla aynı hastalar üzerinde mi yapıldı?
Her bir durumu iki tarafın nasıl değerlendirdiğini ve neden farklı sonuçlara vardıklarını yan yana karşılaştırmadılarsa bunun bilimsel olarak ne kadar etkili olabileceğini bilmiyorum
Kalan %43 içinde doktorların AI’ın göremediği kör noktaları fark edemeyeceğini kim garanti edebilir
Araçların amacı ikame değil, çabayı birleştirmektir
Bu tür yüzdeleri halka bu şekilde sunmak epey sorumsuzca