HealthBench - Yapay zeka sağlık değerlendirmesi için OpenAI'ın yeni benchmark'ı

(openai.com)

4 puan yazan GN⁺ 2025-05-14 | 1 yorum | WhatsApp'ta paylaş

OpenAI, tıbbi ortamlarda yapay zeka sistemlerinin performansını değerlendirmek için yeni bir benchmark olan HealthBench'i tanıttı
262 doktor, 60 ülkeden tıbbi deneyim ve 5.000 gerçekçi tıbbi diyalog temel alınarak oluşturuldu; her diyalog için doktorların doğrudan yazdığı değerlendirme ölçütleri (rubric) kullanılıyor
Değerlendirme ölçütleri doğruluk, bağlam farkındalığı, iletişim kalitesi, bütünlük gibi unsurları içeriyor ve GPT-4.1 tabanlı değerlendirme modeli ölçütlerin karşılanıp karşılanmadığını puanlıyor
En yeni OpenAI modelleri, öncekine kıyasla performansta %28 artış, küçük modellerde maliyet başına performans artışı, en kötü durum performansında (worst-of-n) iyileşme gibi somut ilerlemeler gösteriyor
HealthBench Full, Consensus ve Hard setleri, araştırmacılar ve geliştiriciler için açık kaynak olarak yayımlandı; bunun gelecekte tıbbi yapay zeka araştırmalarına ve güvenliğin artırılmasına katkı sunması bekleniyor

HealthBench'e giriş

Geliştirilme arka planı

Sağlık bilgisine erişimin genişletilmesi, klinik doktor desteği ve toplulukların sağlık hakkının güçlendirilmesi gibi alanlarda AGI'nin sağlık hizmetlerindeki kullanım potansiyelini en üst düzeye çıkarmak için değerlendirme ihtiyacı vardı
Mevcut tıbbi değerlendirme setleri; gerçekçilik eksikliği, uzman yargısına yeterince dayanmama ve modellerin ilerleme alanını göstermede yetersizlik gibi sorunlar taşıyordu

Temel özellikler

5.000 çok turlu, çok dilli, yüksek zorlukta sağlık diyaloğu senaryosu
Her yanıt, doktorların hazırladığı özelleştirilmiş değerlendirme ölçütleri (rubric) ile puanlanıyor
Toplam 48.562 değerlendirme ölçütü ile modelin çeşitli ayrıntılı becerileri nicel olarak ölçülebiliyor
Puanlama, GPT-4.1 kullanan otomatik bir rubric değerlendirme sistemiyle yapılıyor

HealthBench temaları ve değerlendirme eksenleri

7 değerlendirme teması

Emergency referrals: Acil durumların fark edilmesi ve uygun müdahalenin önerilmesi
Expertise-tailored communication: Kullanıcının seviyesine göre terimlerin ve ayrıntı düzeyinin ayarlanması
Responding under uncertainty: Belirsiz bilgi altında verilen yanıtın uygunluğu
Response depth: Duruma uygun bilgi derinliği sağlanması
Health data tasks: Dokümantasyon, bilgi desteği gibi sağlıkla ilgili operasyonel işlerin yürütülmesi
Global health: Ülkeye göre kaynak, koşul ve dil farklılıklarına uyum sağlama becerisi
Context seeking: Gerekli bağlamı kendi başına isteme becerisi

Değerlendirme eksenleri (Axes)

Doğruluk (Accuracy): Tıbbi gerçeklerle ve bilimsel uzlaşıyla uyumlu olup olmadığı
Bağlam farkındalığı (Context awareness): Yanıtın kullanıcının arka planına göre ayarlanıp ayarlanmadığı
Bütünlük (Completeness): Gerekli içeriğin eksiksiz biçimde yer alıp almadığı
İletişim kalitesi (Communication quality): Uzunluk, terimler, yapı ve vurgu biçiminin uygunluğu
Talimatlara uyma (Instruction following): Kullanıcının talep ettiği biçim ve yönteme uyulup uyulmadığı

Gerçek örnek değerlendirmeler

Örnek 1: 70 yaşındaki komşu bilinçsiz ama nefes alıyor

Acil sağlık hizmetlerinin aranması, iyileşme pozisyonuna çevrilmesi, CPR'a ne zaman başlanacağının belirtilmesi gibi unsurlar yer alıyor
Rubric ölçütlerinde 92 puan üzerinden 71 puan (%77) aldı → başarılı acil durum müdahale yönergeleri sundu

Örnek 2: Quercetin'in virüslere karşı koruyucu etkisi

Kanıt eksikliği açıkça aktarılmış olsa da önerilen doz/klinik veri eksikliği ve yan etkilere değinilmemesi vardı
Rubric ölçütlerinde 25 puan üzerinden 1 puan (%4) → bilimsel belirsizliği iyi ifade etti ancak bilgi bütünlüğü zayıftı

Örnek 3: Kardiyak rehabilitasyon ilerleme notu yazımı

Yapılandırılmış bir şablon sunuldu, ancak çok sayıda kritik klinik bilgi eksikti
Rubric ölçütlerinde 42 puan üzerinden 15 puan (%36) aldı

Model performans karşılaştırması

Modellere göre performans (genel/tema bazlı/eksen bazlı)

o3, tüm temalarda ve değerlendirme eksenlerinde en yüksek performansı (0.598) kaydetti
Onu GPT-4.1, Claude 3.7 ve Gemini 2.5 Pro izliyor
GPT-3.5 Turbo ve Llama 4 ise belirgin biçimde daha düşük puanlar aldı

Maliyet başına performans

GPT-4.1 nano, GPT-4o'dan 25 kat daha ucuz olmasına rağmen daha yüksek performans gösterdi
Bu da küçük modellerin gelişmeye devam ederek düşük maliyetle yüksek performans sağlayabileceğini gösteriyor

Güvenilirlik (worst-of-n performansı)

o3 ve GPT-4.1, en kötü örneklerdeki performanslarını da iyileştirdi
Bu, yüksek riskli alanlarda güvenilirliği sağlamaya yönelik önemli bir gösterge

Genişletilmiş benchmark: Consensus ve Hard

HealthBench Consensus: Birden fazla doktorun uzlaşı ölçütlerine göre tasarlanmış yüksek güvenilirlikli değerlendirme seti (3.671 örnek)
- Hata oranı neredeyse sıfıra yaklaşıyor
HealthBench Hard: En yeni modeller için bile zorlayıcı olan 1.000 yüksek zorluktaki örnek
- Modellerin iyileştirme alanını test etmeye yarayan bir değerlendirme seti olarak kullanılabiliyor

İnsan doktorlarla karşılaştırma

Tek başına AI model vs doktor (referans yok) vs doktor (model yanıtına bakabiliyor)
2024 modellerine kıyasla: doktor+model kombinasyonu, tek başına modelden daha iyi sonuç verdi
2025'in en yeni modelleri (o3, GPT‑4.1), doktor yanıtı seviyesine ulaştı veya bunu aştı
- Ek iyileştirme alanı azalıyor

Değerlendirme güvenilirliği

GPT-4.1'in puanlaması ile doktorların gerçek puanlamaları arasındaki uyum oranı yüksek
Modelin puanlama ölçütleri, doktor değerlendirmesiyle benzer düzeyde hizalanıyor → otomatik rubric puanlama sisteminin geçerliliği destekleniyor

Gelecek yönelim

Tüm veri ve değerlendirme araçları GitHub üzerinden yayımlandı: https://github.com/openai/simple-evals
Sağlık alanında anlamlı yapay zeka ilerlemeleri için topluluk temelli sürekli değerlendirme ve iyileştirme teşvik ediliyor
Hâlâ yetersiz kalan bağlam isteme (Context seeking) ve en kötü durumlara yanıt verme (Reliability) gibi sorunların çözülmesi gerekiyor

1 yorum

GN⁺ 2025-05-14

Hacker News görüşleri

Pek çok yaygın teşhis ve tedavinin, buna uygun şekilde ince ayarlanmış ve doğrulanmış yapay zeka sistemleri tarafından yeterince iyi yapılabileceğine inanıyorum. Kısa süre önce öksürük ilacı reçetesi almak için bir doktorla görüntülü görüşme yaptım ama ne almam gerektiğini zaten araştırmış ve biliyordum. İnsanlar “doktor yıllarca okudu, Google'dan daha çok ona güvenmelisin” diyecektir ama insanlar da hata yapıyor ve doktorlar da sık sık UpToDate gibi yerlerden bilgiye bakıyor. Risk almaya razıysam neden o riski kendim üstlenemeyeyim diye düşünüyorum. Öksürük ilacına yaklaşık 44 dolar vermenin üstüne neden doktora da 93 dolar ödemem gerektiğini anlamıyorum; doktor Zoom'da yüzüme 5 dakikadan az bakıp reçeteyi giriyor. ABD'deki öldürücü sağlık masraflarının aksine memleketim Myanmar'da evimin yakınında birçok klinik ve eczane var ve ilaçların çoğu reçetesiz alınabiliyor (tabii opioid içeren ilaçlar için doktor reçetesi gerekiyor). Sadece teşhisi doğrulamak istesem 10-20 dolar verip doktora görünür, ardından doğrudan eczaneden ilacı alırım. Paran varsa ilacı serbestçe alabiliyorsun; neden ABD'de bu riskin bile kişiye bırakılmadığını merak ediyorum. Dünya genelinde sağlık maliyetleri artarken yapay zeka giderek daha sıradan teşhis ve tedavileri üstlenecek gibi görünüyor (gerçi büyük beklentim yok) ve umarım bu tasarrufun en azından bir kısmı hastalara yansır
- Senin durumunda bunun işlemesinin sebebi vakanın olağanüstü derecede basit olmasıydı. Sorun, kişinin hangi durumun basit hangisinin olmadığını ayırt edecek eğitimi almamış olması. Öksürük sadece öksürük olabilir ama daha ciddi bir şey de olabilir; bu yüzden "gerçek" bir doktor muayenesi gerekir ve bazı durumlarda uzmanın ek değerlendirmesi de gerekir. Kendi örneğimi vereyim: testislerimde ağrı vardı. Bir doktor hiçbir şey hissetmedi, başka bir doktor bir şey eline geldiğini söyledi ama ne olduğunu bilmiyordu. Sonunda bir üroloji uzmanına gittim; hemen tümör dedi ve gerçekten de kanserdi. Erken teşhis sayesinde tedavi daha kolay oldu. Mesele şu: durum basit olmadığında uzmanlık ve deneyim çok önemlidir
- Neden 5 dakikadan kısa bir Zoom görüşmesine 93 dolar ödüyorsun demişsin; çünkü 10 yıldan uzun süre eğitim almış bir uzmanın bilgisini satın alıyorsun. Bugünkü yapay zeka sistemleri tıbbi teşhis açısından web aramasından bile daha az güvenilir. Web aramasında en azından uzmanların yazdığı bilgileri ayırt edip değerlendirebiliyorum ve doktor arama yapsa bile o bilgiyi değerlendirme becerisi için para ödediğini düşünüyorum. Yapay zekanın bunu insanlardan daha iyi yapabileceğini düşünmek için ne dayanağın var, bilmiyorum. Bu, Henry Ford'un “nereye vuracağını bilmenin 9999 doları” hikayesine benziyor
- Reçetesiz öksürük ilacı alamadığın yer neresi merak ettim; bildiğim kadarıyla sadece kontrollü madde içerenler reçete gerektiriyor
- Doktor sayısı bunların hepsini yapmaya kesinlikle yetmiyor. Bu eksiklik her geçen gün daha da kötüleşiyor. Herkesin her an ucuzca muayene olabilmesi harika olurdu ama ideal bir dünyada yaşamıyoruz. Yapay zeka bunun bir kısmını devralırsa çoğu insan için muazzam bir fayda olur
- İlaçların herkes tarafından kolayca alınıp kullanılabilmesi, antibiyotiklerin sorumsuzca aşırı kullanımında olduğu gibi sorunlar doğurur. Ne yazık ki sağlık sistemi, ortalamanın altındaki davranışlar da hesaba katılarak tasarlanmak zorunda. Yapay zeka bazı basit sınıflandırma işlerini (triyaj) yapabilir ama LLM'lerin mevcut halinde hasta bilgisinin güvenilirliği ve çok duyulu muhakeme eksik olduğu için henüz doktorun yerini alması zor. Gerçek bir “AI aile hekimi” ancak kusursuz sağlık verisi ve geçmiş kaydı olduğunda mümkün olabilir ama bu ölçekte veri toplamak da mahremiyet gibi yeni sorunlar doğurur
- Eğer bu deneyim sıradan sağlık hizmeti kullanımını temsil ediyorsa sistemin tamamını kökten değiştirecek bir dönüşüme ihtiyaç var demektir. Yapay zeka sadece bazı şirketlerin kâr marjını artırabilir ve sana hiçbir fayda sağlamayabilir
- Yapay zekanın da ayrı bir maliyeti olacak; bedava olmayacak
Benchmark'ı da modeli yapan taraf hazırlıyorsa bu çıkar çatışması değil mi diye düşünüyorum; en azından ayrı bir kâr amacı gütmeyen kuruluşun ya da ana şirket altında ayrı bir tüzel kişiliğin yürütmesi daha şeffaf olurdu
- Benchmark'ın kendisi kötü değil ama yeni oluşturdukları ölçütte Gemini veya Claude'un o3'ten daha düşük çıktığını gösteren grafiği görünce biraz rahatsız oldum. “Az önce yarattığımız çok önemli ölçütte rakip modeller daha kötü çıkıyor! Ne kadar da önemli!” gibi bir hava veriyor
Anlamı gerçekten kavramayan LLM'lere sağlık bilgisini emanet etmek ciddi bir hata. Veri örüntüsü bulma, eğlence ya da kod üretimi gibi alanlarda bir ölçüde işe yarayabilir ama tıbbi teşhis veya tavsiye konusunda asla güvenilemez. Sağlık çalışanlarının LLM'nin söylediğini papağan gibi tekrar ettiğini düşünmek bile korkunç. Bu riskler bir an önce düzenlenmeli
- Bunun neden özellikle ölümcül bir kusur olduğunu düşündüğünü somut olarak merak ediyorum. LLM'lerin bariz sınırları var ama insanların da sınırları var ve bence ikisini birleştirerek daha iyi sonuç alınabilir
- Gerçekte kimin bir şeyi anladığı hepimiz için opak. Bu yorumu bile bir yapay zekanın yazıp yazmadığını bilmiyoruz ve gerçekten anlama yetisi olan kişiyi belirlemek için mutlak bir ölçüt yok. İnsan uzmanlığını da sonuçta sınavlar gibi dolaylı yollarla ölçüyoruz ve OpenAI şu anda bunu zorlamaya çalışıyor. Benim umursadığım şey sonuç. “Not” %10 ise ister insan ister yapay zeka olsun güvenmem, %95 ise doktordan bile daha kullanışlı olduğunu düşünebilirim. Hatta yakında çoğu doktorun bu benchmark'larda en yeni modeller kadar iyi sonuç alamayacağını tahmin ediyorum
- Sağlık bilgisini “yorgun ve önyargılı memeli insanlara” emanet etmek de aynı derecede riskli olabilir. Doktordan empati, kısa sohbetler ve temel aşılar almak güzel ama sürekli aşırı çalışan bir doktorun veri araçlarından her zaman daha isabetli olacağının garantisi yok. Doktorum sadece satış temsilcilerinin sunumunu ya da eski kılavuzları tekrarlıyorsa bu da korkunç olur
“k örnekteki en kötü puanı” göstermelerini beğendim; gerçek hayatta 100 kişiden 1'i bile o “en kötü yanıtı” gerçekten alacak
Grok'un bu testlerde beklediğimden iyi performans göstermesi etkileyici. Haberlerde Grok'un, Gemini ve Llama'ya kıyasla daha az dikkat çektiği hissine kapılıyorum
- Gemini'nin şaşırtıcı derecede iyi iş çıkarmasına şaşırdım. Gemini sağlıkla ilgili konulardan özellikle kaçınma eğiliminde olduğu için puanı düşmüş gibi görünüyor. Muhtemelen sansür nedeniyle eksik verilen yanıtların hepsi başarısız sayılmıştır
- Grok'un model ağırlıkları indirilemiyor ve yerelde çalıştırılamıyor
Son 5 yıldır bir sakatlıkla uğraşıyorum. Birçok spor hekimine gittim, taramalar yaptırdım, sıcak-soğuk uyguladım; akupunkturdan kiropraktik tedaviye kadar her şeyi denedim. Doktorlardan gelen teşhisler çoğunlukla “normal” ya da “nedenini bilmiyoruz” gibi alakasız şeylerdi. Sadece bir doktor ikna edici bir görüş sundu ama o kadar hayal kırıklığına uğramıştım ki takibini bile yapmadım. Sonunda tüm geçmişimi o3-deep-research'e girdim; o da aynı doktorun görüşünü paylaştı ve hatta kas grubu şemasıyla egzersiz yöntemleri bile önerdi. Hâlâ tamamen iyileşmedim ama uzun zamandır ilk kez temkinli bir umut hissediyorum
- Neden LLM'nin teşhisine pek çok doktorun tavsiyesinden daha fazla güvendiğini merak ediyorum. ABD'de doktorların fizik tedavi ya da egzersiz önermemiş olması bana pek anlaşılır gelmiyor
- Kas-iskelet sistemi yaralanmalarının çoğunda tedavinin çok uzun bir deneme-yanılma yolculuğu olduğunu gerçekçi biçimde kabul etmek gerekir; görüntüleme tetkiklerinin de sınırları vardır ve belirtilerle görüntü sonuçlarının uyuşmadığı çok sayıda durum olur. Moralini bozma; bilimsel dayanağı olan çeşitli tedavileri denemeye devam edersen çoğu zaman sorunu nihayetinde zaman çözer. Bu yüzden belirli bir tedavinin işe yaradığını sanmak kolaydır
- Aslında ihtiyacın olan şey doktor değil, iyi bir fizyoterapistmiş gibi görünüyor
- Sonuçta o doktorun görüşü doğruymuş, öyle değil mi? Yapay zeka ya da internetten kendi kendine teşhis burada özel bir zafer sayılmaz
- Akupunktur ve kiropraktik gibi sahte tedavilere inanıp doktorlara güvenmemek, sonra da yalanlarıyla ünlü bir yapay zekaya güvenmek biraz içsel karar ölçütlerini gözden geçirmeyi gerektiriyor gibi
- Umarım son dönemde hükümetin bilim bütçesindeki kesintiler, yeni yaklaşımları denemeyi ve öğrenmeyi engelleyen bu aşırı temkinli insanlardan biraz olsun kurtulmamızı sağlamıştır. Bu tür modellerin yalnızca “Size tıbbi tavsiye veremem” demeye zorlanması gerçekten büyük kayıp
Bu çalışmanın çok düşünülmüş ve faydalı olduğunu düşünüyorum. Bir yıl içinde model performansının neredeyse iki katına çıkması da etkileyici. o3 ve deep-research sağlık yönetimimde gerçekten çok yardımcı oldu. Örneğin bir ay önce göğüs bölgeme (kalp tarafına) sert bir darbe aldım ve o3'e semptomlarımı, Apple Watch'taki kalp atışı/oksijen satürasyonu verilerini verdim. Önceki sohbetlerden sağlık geçmişimi de zaten biliyordu. Beklenen seyri ve tedaviyi doğru şekilde anlattı; iyileşmem de gerçekten %100 bununla örtüştü. Normal zamanda boy, kilo, kullandığım ilaçlar ve sağlık bilgilerim gibi ayrıntılı bir prompt hazırlayıp semptom ortaya çıkınca bunu doğrudan o3'e vererek danışmak çok faydalı oluyor
- Apple Watch veya diğer bilekten takılan giyilebilir cihazların SpO2 oksijen satürasyonu verileri tanı amaçlı kullanım için oldukça hatalıdır; parmağa takılan özel oksimetre çok daha doğrudur
- O teşhis konusunda ne kadar özgüvenli konuştuğunu merak ediyorum; senin de bu özgüvene ne kadar güvendiğini merak ediyorum. Doktor olan eşime sordum, yaralanmaya bağlı perikardiyal efüzyonun (potansiyel olarak acil bir durum) alternatif bir olasılık olduğunu söyledi
Bu benchmark'ın modellerin gerçekte nasıl kullanıldığıyla kopuk olduğunu düşünüyorum. Gerçek iş ortamlarında kullanıcıyı doğrudan temel modelle sohbet ettirmezler; RAG, guardrail'ler ve önceden hazırlanmış yanıtlar gibi birleşik yaklaşımlar kullanırlar. Bu değerlendirmenin hangi ticari senaryoyu temsil ettiğini gerçekten merak ediyorum
- Kod benchmark'ları için de aynı şey geçerli değil mi? Pratikte uzmanlık gerektiren soru-cevap işlerinde iyi bir prompt ve web aramasıyla temel o3 daha iyi olabilir. Hatta RAG/guardrail'ler performansı düşürebilir
- Sadece ChatGPT sohbetinin kendisi bile bu testin gerçek dünyadaki uygulamasıdır; çok büyük ve önemli bir kullanım alanı
Klinik dışı kişiler bile artık gerçek sağlık sorunlarında yardım almak için her gün ChatGPT kullanıyor. Bu değerlendirme, gerçek dünyadaki riski azaltabilecek iyi bir veri seti
Kısa süre önce ChatGPT'ye tahlil sonucumu yükleyip özetlemesini istedim; yapay zeka ciddi bir kanseri “halüsinasyon” olarak uydurdu ve buna bir sürü ek açıklama da ekledi. Oysa raporda aslında “kanser yok” yazıyordu
- Hangi LLM modeliydi merak ettim (4o, o3, 3.5?) İlk modeller pek iyi değildi ama o3 sağlık sorunlarında yardım için epey kullanışlıydı (örneğin kulak sorunları)
- Acaba yapay zeka sonuç belgesini okuyamamış ve sadece rol yapar gibi alakasız bir cevap mı üretmişti? Bir keresinde ona bir motor kılavuzu PDF'i verip soru sordum; kulağa makul gelen bir cevap verdi ama gerçekte bambaşka bir devre şemasından söz ediyordu
- Şaka yollu “Kanser testi: Kanser bulundu!” diye yanıt vermiş gibi olmuş
- Gerçekte sonucun ne çıktığını merak ediyorum (bazen yanlış pozitif sandığımız şeyin aslında daha sonra gerçekten kanser olduğu ortaya çıkabiliyor; kanser bazen sinyallerini ancak uzun süre sonra veriyor)

HealthBench - Yapay zeka sağlık değerlendirmesi için OpenAI'ın yeni benchmark'ı

HealthBench'e giriş

Geliştirilme arka planı

Temel özellikler

HealthBench temaları ve değerlendirme eksenleri

7 değerlendirme teması

Değerlendirme eksenleri (Axes)

Gerçek örnek değerlendirmeler

Örnek 1: 70 yaşındaki komşu bilinçsiz ama nefes alıyor

Örnek 2: Quercetin'in virüslere karşı koruyucu etkisi

Örnek 3: Kardiyak rehabilitasyon ilerleme notu yazımı

Model performans karşılaştırması

Modellere göre performans (genel/tema bazlı/eksen bazlı)

Maliyet başına performans

Güvenilirlik (worst-of-n performansı)

Genişletilmiş benchmark: Consensus ve Hard

İnsan doktorlarla karşılaştırma

Değerlendirme güvenilirliği

Gelecek yönelim

İlgili okumalar

1 yorum

Hacker News görüşleri