Claude Code ile MRI’ım için ikinci bir görüş aldım
(antoine.fi)- Sağ omuz ağrısı için çekilen MRI sonrasında hastanenin Grade III kısmi kat yırtığı tanısı ve hızlı tedavi planı soru işaretleri yarattı; bu yüzden Opus 4.8 ile görüntü yeniden yorumlanmaya çalışıldı
- Hastane, subscapularis tendonunun “apical insertion” bölgesinde genişliğin %50’sinden fazla kısmi kat yırtığı gördü; ancak Opus 4.8 tendonun sağlam olduğuna karar vererek çok farklı bir sonuca ulaştı
- GPT 5.5 Pro, hastane tedavisi içindeki şok dalga tedavisi ve Traumeel enjeksiyonu için kanıt temelini sorguladı; bu da tanının kendisini doğrudan inceleme motivasyonunu artırdı
- Opus 4.8, Claude Code ortamında yaklaşık 266MB DICOM MRI dosyası içeren yüzlerce dosyayı paket kurup kod çalıştırarak analiz etti; ardından insan raporu ve ChatGPT görüşmeleri de eklenerek yeniden aracılık analizi yapıldı
- Nihai aracılık sonucu “hafif insersiyonel tendinozis, belirgin kısmi kat veya tam kat yırtık yok” sonucuna daha yakındı; ancak tıp uzmanı ile yapay zeka arasında hangisine güvenileceğine dair belirsizlik sürdü
Hızla ilerleyen MRI tanısı ve tedavi
- Birkaç haftadır sağ omuz ağrısı vardı ve belirtiler düzeliyor gibi görünse de ortopedi doktorunun görüşü alındı
- Doktor MRI önerdi ve klinikte hemen çekim yapılabildiği için inceleme gerçekleştirildi
- MRI sonucu, subscapularis tendonunun “apical insertion” bölgesinde Grade III (>50%-width) partial-thickness tear olduğu tanısına götürdü
- Hastane, MRI’dan sadece birkaç dakika sonra tedaviye başladı ve aynı tedavinin toplam 3 kez tekrarlanacağı bir plan da yaptı
- Sürecin gereğinden fazla hızlı ilerlediği hissedilince, hastaneden çıkarken MRI sonuçlarının bir kopyası ile uygulanan ve önerilen tedavilerin listesi istendi
GPT 5.5 Pro’nun işaret ettiği tedavi dayanağı sorunları
- MRI sonucu ve tedavi listesi GPT 5.5 Pro’ya verildiğinde iki nokta hemen ortaya çıktı
- Hastane omuza şok dalga tedavisi uyguladı, ancak güncel klinik uygulama kılavuzları kalsifikasyon olmayan rotator manşet tendinopatisinde şok dalga tedavisinin kullanılmamasını ya da önerilmemesini söylüyor
- Ultrason sırasında kalsifikasyon olmadığı söylenmişti
- Hastane Traumeel enjekte etti; bu, Almanya’da “tedavi endikasyonu yok” olarak kayıtlı homeopatik bir ilaç
- Bu sonuç, hastane tanı ve tedavisine duyulan güveni daha da azalttı ve MRI’ın kendisini analiz etme isteği doğurdu
Claude Code içinde Opus 4.8 ile MRI analizi
- MRI paketi, uzantısı olmayan yüzlerce dosyadan oluşan standart bir DICOM export idi ve toplam boyutu yaklaşık 266MB idi
- Analizde Claude Code içinde Opus 4.8 (xhigh) kullanıldı
- Kod çalıştırma ve paket kurulumuna izin verdiği için Claude Code seçildi
- Analiz için gerekli paketlerin önceden kurulması talimatı verildi
- Aynı model kullanılsa bile Claude Code ile Claude.ai sohbeti arasındaki farkın çok büyük olduğu düşünülüyor
- MRI konusunda bilgi olmadığı için Claude’un önce ayrıntılı bir plan yapıp sonra uygulaması istendi
- Başta verilen tek tıbbi bağlam “2–3 haftadır sağ omuz ağrısı” idi ve bunun daha sonra insan doktorun sahip olduğu bilgiden daha az olduğu değerlendirildi
İlk analizde ayrışan yırtık değerlendirmesi
- Yaklaşık 1 saat sonra Opus 4.8 raporu döndürdü
- Hastane yorumu ile Opus 4.8 yorumu neredeyse birbirinin tam tersiydi
- Hastane, subscapularis tendonunun apical insertion bölgesinde Grade III kısmi kat yırtığı gördü
- Opus 4.8 ise ilgili tendonu intact tendon olarak değerlendirdi
- Beklenen fark, yırtık derecesinin daha düşük çıkmasıydı; ancak gerçekte yırtık olup olmadığı konusunda bile görüş ayrılığı vardı
İnsan yorumu ile yapay zeka yorumunu yeniden uzlaştırma
- İki sonucu uzlaştırmak için Opus 4.8’e yeniden bir karşılaştırmalı analiz yaptırıldı
- Bu kez yalnızca insan MRI raporu değil, ChatGPT 5.5 Pro ile yapılan konuşmalar da birlikte verildi
- Bu konuşmalarda tanıyı tartmak için denenebilecek hareketler ve pozisyonlar yer alıyordu
- Opus, mevcut bağlama daha az önyargılı yeni bir analiz elde etmek için çeşitli alt ajanlar kullanarak yaklaştı
- Yaklaşık 1 saat sonra yeni rapor geldi
- Uzlaştırma sonucu, Reader A tarafındaki kanıtların daha güçlü olduğu ve bunun “moderate-to-high confidence” ile özetlendiği yönündeydi
- Hafif insersiyonel tendinozis
- apical insertion dahil olmak üzere belirgin kısmi kat veya tam kat yırtık yok
- İki rapor arasındaki bazı anlaşmazlıkların çözülemeyeceği söylense de bu madde için görece net bir sonuca varıldı
- Hafif insersiyonel tendinozis
Yapay zeka ikinci görüşünden sonra geriye kalan seçenekler
- Güvenilen bir uzmana bırakıldığında hissedilen rahatlık var, ancak yapay zeka tabanlı ikinci görüş bu duyguyu rahatsız edici biçimde sarsabiliyor
- Yapay zeka analizinden sonra mevcut tanı ve tedavi planı, olgulara kıyasla aceleci ve müdahaleci görünmeye başladı; ancak yapay zekanın kendisine de tamamen güvenmek zor
- Geriye kalan seçenekler başka bir doktora gitmek ya da şu anda sürdürülen rehabilitasyonun omzu iyileştirip iyileştirmediğini beklemek
- Birkaç nesil sonra, e-posta düzeltmelerine güvenildiği gibi MRI incelemelerinde de yapay zekaya güvenilebilmesi umuluyor
- Klinik ve doktor isimleri açıklanmıyor; bu deneyim tıbbi tavsiye değil, yapay zekayla ikinci görüş almayı denemeye yönelik teknik bir merak örneği olarak sunuluyor
1 yorum
Hacker News görüşleri
Bir radyoloji hekimi olarak, 3D MRI veri setinin tamamını görmeden karar vermek zor. Ultrason kalsifikasyonları değerlendirmek için iyi bir yöntem değil; büyük kalsifikasyonları bulur ama küçükleri kolayca kaçırabilir.
Basit röntgen daha yardımcı olurdu; MRI'da da görülmüş olabilir. Her hâlükârda, kalsifikasyon yokken şok dalga tedavisi zararlı değildir; sadece faydası olmaz.
Radyoloji raporlarında “yok” yazıldığında bunun yanına her zaman örtük olarak “ilgili görüntüleme yöntemi ve elde edilen görüntü alanı içinde yok” koşulu eklenir. Bu yüzden ultrason raporunda kalsifikasyon yok denirken basit röntgen raporunda kalsifikasyon var denmesi çelişki değildir.
Hasta ya da tıbbi terimlere aşina olmayan biri için elbette kafa karıştırıcıdır; ama raporda bunların hepsi açılarak yazılsa, bugünkünden daha fazla koşullu ifade içeren ve okuması daha sinir bozucu bir belge ortaya çıkar.
Babbage'a “hesaplama makinesine yanlış bir soru girilirse doğru cevap çıkar mı?” diye sorulduğu anekdot aklıma geliyor. Kabaca “böyle bir soruyu akla getiren zihnin mantığını hiç kavrayamıyorum” diye yanıt vermişti.
AI, kalsiyumun ultrasondan ziyade röntgen/BT'de daha iyi görüldüğünü en azından belirtmeli gibi geliyor.
İlgilenenler için, akredite insan radyologların baktığı bir ikinci görüş hizmeti sunuyoruz: https://expert.med
İşin özü gerçekten bu. AI'ya güvenilemeyeceğini biliyorum ama aynı zamanda AI'dan daha fazla açıklama istemek ya da itiraz etmek çok daha kolay. Saatlik randevu yok, saat başı ücret yok; bu büyük fark. Ama daha fazla bilgi her zaman yardımcı olacak diye bir şey yok.
150 bin mil yapmış 11 yıllık Civic'imi birkaç tamirhaneye götürüp “ikinci görüş” oyunu oynamıştım. Her tamirhanenin önerilerini karşılaştırıp ne yapmam gerektiğine karar vermeye çalıştım.
Sonuç, birbiriyle hiç alakası olmayan 3 öneriydi; bunlardan birinin kesinlikle yanlış olduğunu biliyordum. Başlamadan öncekinden daha kötü hissettim.
Belirsiz bilginin çözümü, AI'nın sağlayabileceği daha fazla bilgi değil, daha iyi bilgi; mevcut AI ise bunu sağlayamıyor.
Birbirinden farklı ve çelişkili ne kadar çok yanıt çıktığını görmek epey öğretici. Çoğu da kendinden emin biçimde sunuluyor.
Claude'a en son tıbbi bir soru sorduğumda, oturumlar arasında bile tutarlı yanıt alamadım.
Daha da korkutucu olan, her LLM'i aklımdaki cevaba doğru yönlendirmenin ne kadar kolay olduğu. Başka bir LLM'in sunduğu seçenekleri sormaya başlayınca her oturum o açıklamaya doğru akıp gitti.
Gizem daha kötüdür. Her yeni veri parçasıyla hedef daha da uzaklaşır. Her şey giderek daha kafa karıştırıcı hâle gelir.
Malcolm Gladwell'in popülerleştirdiği ayrım budur.
Tamirciden görüş almanın zaman aldığını biliyorum. Ama AI için öyle değil.
Birkaç yıl önce, yapay zeka furyasından önce, bana yanlışlıkla tüberküloz teşhisi konmuştu. Kronik öksürüğüm vardı ve bir kliniğin dışarıdan çalıştığı radyoloji uzmanı tüberküloz bulguları gördü. Sonuç, yasal olarak şehirdeki tüberküloz hastanesine gönderildi; oradaki doktorlar da radyoloğun sonucunu aynen kabul edip en az 8 ay boyunca hapishane gibi katı bir düzene sahip hastanede kalmam gerektiğini söylediler
Reddetme imkânım da yoktu. Bir tür biyolojik tehlike olarak görülüyordum ve hukuken uymak zorundaydım
Yatıştan önce aceleyle başka bir radyoloji uzmanı buldum; o zatürre teşhisi koydu. Bu raporu tüberküloz hastanesindeki sorumlu doktora gönderdim; incelemenin ardından ilk okumanın hatalı olduğu sonucuna vardılar. Meğer oradaki doktorlar görüntüleri hiç okuyamıyor, sadece radyoloğun söylediğine inanıyorlarmış
Komik olan, beni çoktan resmî tüberküloz kaydına geçirmiş olmaları ve hatayı kabul etmek istememeleriydi. Bunun yerine “tüberküloz o hastanede 7 günde tamamen iyileşti” diyen başka bir belge düzenlediler. Muhtemelen o ülkede tüberkülozu bir haftada yenen tek kişiyimdir
Radyologlara ya da doktorlara güvenmek zorsa, maliyetini karşılayabiliyorsanız başka bir doktora görünmek iyi olur. Sonuçları karşılaştırıp örtüşüp örtüşmediğine bakabilirsiniz. Birbiriyle bağlantısız iki doktor ya da radyolog aynı şeyi söylüyorsa, gerçeğe epey yakın olma ihtimali vardır
Yine de yapay zekaya mı insana mı daha çok güvenmek gerekir, pek emin değilim. Yapay zeka halüsinasyon görüyor ama ben de insanlardan defalarca yanlış teşhis aldım
Her doktorun tek başına kendi kendine bakmasına bırakmak yerine, görüntülerin en üst düzey uzmanlar tarafından değerlendirildiği merkezî bir yer olması gerektiğini düşünüyorum
Buradaki insanların insan bedenini deterministik bir fonksiyon gibi, X girdisine Y çıktısı vermesi gereken bir şey olarak görmeyi beklemesi ilginç. Bu beklenti teşhise de uzanıyor; aynı sorun için birden çok uzmandan aynı teşhisin çıkacağını sanıyorlar
İnsan bedeninin karmaşıklığı düşünüldüğünde teşhis, kariyer boyunca biriken deneyim, bilgi, teşhis yöntemleri ve ekipmanın birleşiminden doğan bir sonuçtur. “Doktor” gibi bir unvan, devletin “sınavı geçti, muayene etmesi güvenli” diye verdiği bir sertifikadır; herkesin aynı şekilde hekimlik yaptığı anlamına gelmez
Bazı uzmanlar bilgilerini her ay günceller, bazıları her yıl, bazılarıysa hiç güncellemez. Bölge, siyaset, hatta hava durumu bile değişken; değişken çok fazla
Bu yüzden uzman seçimi gerçekten önemlidir. O kişinin muayene yaklaşımı ve uzmanlık alanındaki itibarı araştırılmalı. Doğru teşhis alma olasılığını ancak en üst düzeye çıkarabilirsiniz; birine doktor deniyor diye doğruyu söylemesini beklememek gerekir
Omuz ağrısı yüzünden neredeyse hemen ameliyat önerilen çok arkadaş ve aile üyesi gördüm. İşi ameliyat yapmak olan insanlar için ameliyatın varsayılan seçenek hâline gelmesi sık rastlanan bir durum
Benim de bir dönem omzum epey ağrıyordu ve ağrı aylarca geçmedi. Ameliyat olmak istemediğim için masaj ve akupunktur denedim ama hiç faydası olmadı
Sorunu çözen şey, barfikse gerçekten odaklanmam oldu. Başta bir tane bile çekemediğim için asılı kalma ve skapular barfiksle başladım, sonra yavaş yavaş normal barfikse geçtim. Bir sette birkaç tane yapabilir hâle geldikten sonra “grease-the-groove” yöntemiyle çalıştım
Bir sette yaklaşık 17 tane yapabilir hâle geldiğimde antrenman programını bıraktım; şimdi gün içine yayarak haftada 3 kez, 7-8 tekrarlı 6 set yapıyorum. Omuz mobilitesi egzersizleri de yapıyorum https://www.youtube.com/watch?v=vP8YmmRMz6I
Tembelleşip aksatırsam rahatsızlık istisnasız geri geliyor; ama tekrar güçlendirme egzersizlerine başlayınca kayboluyor
Hasta hızlı bir çözüm arayarak giderse sanırım kendisine o tür bir çözüm öneriliyor. Biraz araştırıp kendisi için en iyi çözümü bulmaya giderse de genelde onu elde ediyor
Yaklaşık iki yıl önce, neredeyse 3 yıldır uğraştığım kronik sinüziti ChatGPT’nin “deep research” özelliğiyle araştırdım. 3 pratisyen hekim ve 3 KBB ziyareti sonrası, elimdeki tüm gözlemleri yapay zekaya verdim
Özellikle KBB doktoru sinüslerime endoskopla bakıp alerjik reaksiyon kanıtı görmüşken, daha sonra alerji testinden sonra bunun alerji ilaçlarıyla tedavi edilemeyeceği sonucuna neden vardığını açıklayamadı. Birkaç kez sordum ama yanıt vermedi
ChatGPT, insanların %20’sinin vücudun belirli bir bölgesiyle sınırlı alerjik reaksiyon gösterdiğini ve bunun omuzdaki deri prick testiyle ortaya çıkmayabileceğini belirten bir NIH araştırması buldu. Ona sorduğumda sadece “alerjiler böyle çalışmaz” dedi. Konu orada kapandı. Araştırmaya bakmayı bile düşünmedi
CPAP ve düzenli nebulizatör tedavisi yazdı. Bu arada CPAP şirketi mesaj attı ama bunun phishing olup olmadığını anlayamadım; kim olduklarını sordum ama yanıt gelmedi
Bu yüzden sadece her gün 2. nesil alerji ilacı kullanmayı denemeye karar verdim
Sinüzit kayboldu. Önceden en azından her çeyrekte ciddi bir sinüzit geçirirdim. O doktorun dediği gibi alerjiler o şekilde çalışmıyor olabilir, ama alerji ilacı sorunumu tamamen çözdü
Buna minnettarım. Çünkü birkaç yıl önce CPAP’ı bir ay boyunca düzgünce denemiştim ama bir türlü alışamamıştım ve uykum da berbat olmuştu
Sonra sorumluluk ve zaman meselesi var. Özellikle tıp gibi riskin yüksek olduğu alanlarda, birinden kararını yeniden gözden geçirmesini istediğinizde kimsenin o karmaşayı açacak zamanı ya da isteği yok
Gerçekten başarılı olmak istiyorsanız, tanı döngüsü kapanmadan, doktorlar sizinle ilgili vakayı kafalarında kesinleştirmeden önce, araştırmanın önerdiği testi teklif etmeniz gerekir. Görülmesi gereken şeyi görme ihtimaliniz en çok o zaman olur
Bir hipoteziniz olduğunu açıkça söylemek daha iyi. Doktorlar yönlendirildiklerini çok hızlı fark ederler, ama hastanın gerçekten haklı olduğunu bundan daha geç fark ederler. Aşırı çalışan insanların ellerinden gelenin en iyisini yaptığı bir sistemde böyle hareket etmek gerekir
Bir radyoloji uzmanı olarak Claude ve ChatGPT’nin MRI yorumlamada gerçekten berbat olduğunu gördüm; hiç güvenmem. Metin tabanlı materyalleri araştırırken güçlü yanları var, ama radyolojik görüntüleri henüz yeterince iyi yorumlayamıyorlar
Şu anda Siemens MR yazılımı Deep Resolve sinyal üretiyor (yaklaşık %50 ek), ardından her iki pikselden birini üretiyor ve 3D sekanslarda her iki kesitten birini üretiyor. Her sekansın süresini yaklaşık %59 azaltıyor ve gerçekten çok iyi
Ben MR teknisyeniyim
Açıkçası ChatGPT 5.5’in ELO’sunu merak ediyorum. İçselleştirdiği içerik sayesinde, satranç ilkelerine dair temel bir anlayışla bile 2000’in üzerinde olmasına pek şaşırmazdım
Olumsuz tepkileri anlamıyorum. Günümüz tıbbı, hem doktorun hem de hastanın kafa yormasıyla işliyor. Doktorun tanıyı koyduğu ve benim de sadece günüme devam ettiğim durumlar neredeyse hiç olmadı. Böyle olduğu zamanlarda da genellikle sorundan emindim ve ne gerektiğini biliyordum. Doktor, tedaviye erişimin önündeki engeldi
Dr. GPT iyi bir beyin fırtınası aracı. Ham kaynak materyalle zor olacak şekilde bilgileri sentezliyor. Yine de onu “bu mantıklı değil” demeye zorlamak gerekiyor
“Doktorlar güncel bilgileri bilmiyor” tarafının kanıtının zayıf olduğunu düşünüyorum. Ön eğitimdeki token yoğunluğunu ve son eğitim veri kümelerinin nasıl oluşturulduğunu düşünürsek, köklü değişimlere uyum sağlaması çok uzun sürecektir. Eğer iskorbüt tedavisini unuttuysak, yeni keşfe uyum sağlamak için kaç makale gerekir?
Görüntüler konusunda yapay zekaya güvenmem. Ama bir keresinde ChatGPT, sadece MRI raporunun metnine bakarak raporun büyük olasılıkla çok yanlış olduğunu söyledi ve başka bir tanı önerdi. Bunu oldukça güçlü savunduğu için başka bir doktora gittim ve yeniden tetkik yaptırdım. Uzun lafın kısası, ChatGPT haklıydı
Tekrar edeyim, bu tek bir kişinin tekil deneyiminden ibaret; bu yüzden büyük bir anlamı yok
Doktorların yanlış bir şey söylemeden önce neden LLM’e bir prompt bile girmediğini anlamıyorum. Gurur meselesi mi?
Radyolojinin uzmanlaşmış evrişimli sinir ağları gerektirdiğini anlıyorum, ama bilgi tabanına daha yakın sorunlarda bu daha da geçerli
Gerçek değer sunan çok sayıda uzmanlaşmış VLM çıkacağını düşünüyorum
Bu oyuncaklara hiç güvenilmez. İşe yaramaz oldukları anlamına gelmiyor, ama güvenilir değiller