Ontario denetçileri, doktorlar için yapay zeka not tutucularının temel gerçekleri sürekli yanlış aktardığını açıkladı

(theregister.com)

1 puan yazan GN⁺ 5 시간 전 | 1 yorum | WhatsApp'ta paylaş

Ontario’nun sağlık hizmeti sunucuları için onayladığı 20 AI Scribe sisteminde temel bilgilerin atlanması, yanlış bilgi eklenmesi ve söylenmemiş içerik üretilmesi tespit edildi
Tedarik değerlendirmesi, sahte doktor-hasta kayıtları ile yapay zeka tarafından oluşturulan klinik notların sağlık uzmanları tarafından karşılaştırılması yöntemiyle yapıldı ve 9 sistem tedavi planı önerilerini bile uydurdu
12 sistem yanlış ilaç bilgisi ekledi, 17 sistem ise kayıtta geçen hastaların ruh sağlığına ilişkin kritik ayrıntıları kaçırdı
OntarioMD, doktorlara yapay zeka notlarını manuel olarak gözden geçirmelerini tavsiye etti, ancak onaylı sistemler arasında doğruluk onayını zorunlu kılan bir özellik bulunmuyordu
Değerlendirme puanında eyalet içinde yerel varlık %30 ağırlığa sahipken, tıbbi not doğruluğu %4’te kaldı; önyargı kontrolü ile risk ve gizlilik değerlendirmeleri ise ayrı ayrı %2 oldu

Denetim raporu ve değerlendirme yöntemi

Kanada’daki Office of the Auditor General of Ontario tarafından yayımlanan kamusal hizmetlerde yapay zeka kullanımına ilişkin rapor, Ontario Sağlık Bakanlığı’nın AI Scribe programı değerlendirmesini de içeriyor
Bu program, doktorlar, uzman hemşireler ve diğer sağlık profesyonellerine yönelik yapay zeka not oluşturma araçlarının tedarikini kapsıyor
Tedarik sürecinde sahte doktor-hasta kayıtları kullanıldı ve sağlık uzmanları, doğruluğu değerlendirmek için özgün kayıtlarla yapay zeka tarafından üretilen klinik notları karşılaştırdı

Tespit edilen hatalar

20 sistemden 9’u, kayıtta ele alınmayan içerikleri uydurdu ve hastanın tedavi planına dair öneriler üretti
Örnek raporlarda “kitle saptanmadı” ya da “hasta kaygılıydı” gibi potansiyel olarak ciddi yanlış bilgiler yer aldı, ancak bunlar kayıtta hiç konuşulmamıştı
20 sistemden 12’si hasta notlarına yanlış ilaç bilgisi ekledi
20 sistemden 17’si, kayıtta ele alınan hastaların ruh sağlığıyla ilgili kritik ayrıntılarını kaçırdı
6 sistem, hastanın ruh sağlığı sorunlarını tamamen ya da kısmen atladı veya kritik ayrıntıları eksik bıraktı

Manuel inceleme ve güvenlik önlemleri

Doktorların yeni teknolojileri benimsemesini destekleyen ve AI Scribe tedarik sürecine katılan OntarioMD, doktorların yapay zeka tarafından oluşturulan notların doğruluğunu manuel olarak incelemesini tavsiye etti
Denetim raporuna göre, onaylanan AI Scribe sistemlerinin hiçbirinde doktorun doğruluğu kontrol ettiğini gösteren zorunlu bir onay özelliği bulunmuyor

Değerlendirme ağırlıkları sorunu

Düşük performansın önemli bir bölümü değerlendirme ağırlıkları sorunuyla bağlantılı
Platform değerlendirme puanının %30’u, Ontario içinde yerel varlık bulundurmaya ayrılırken, tıbbi notların doğruluğu toplam puanın yalnızca %4’ünü oluşturdu
Önyargı kontrolü toplam değerlendirme puanının %2’siydi; tehdit, risk ve gizlilik değerlendirmesi %2, SOC 2 Type 2 uyumluluğu ise %4 pay aldı
Bu ağırlıklar, hatalı veya önyargılı tıbbi kayıtlar üretebilecek ya da hassas kişisel sağlık bilgilerini korumak için yeterli önlemlere sahip olmayan tedarikçilerin seçilmesine yol açabilir

Ontario Sağlık Bakanlığı’nın yanıtı

The Register, Ontario Sağlık Bakanlığı’na rapor hakkındaki görüşünü ve AI Scribe programına ilişkin tavsiyeleri uygulamayı planlayıp planlamadığını sordu, ancak hemen bir yanıt alamadı
Bakanlık sözcüsü çarşamba günü CBC’ye, Ontario’da 5.000’den fazla doktorun AI Scribe programına katıldığını ve bu teknolojiyle bağlantılı bilinen bir hasta zararı raporu bulunmadığını söyledi

1 yorum

GN⁺ 5 시간 전

Hacker News görüşleri

Mevcut yapay zeka teknolojisinin geleceği konusunda genel olarak kötümserlikten iyimserliğe kaymış olsam da, modeller büyük ölçüde gelişirken temel olgu hatalarının hâlâ sürmesi ciddi biçimde takılıyor
Claude Opus ile damak tadıma ve aromaya göre tarif üretmek sihir gibi hissettirirken, yemek kaşığı ile çay kaşığı dönüşümü gibi temel birim hesaplarını yanlış yaptığı anda hevesim kaçıyor
Neredeyse normal davranan bir film karakterinin bir tuhaf çıkıp zombi olduğunun anlaşılması gibi bir his veriyor; bu not tutma örneği de etkileyici biçimde neredeyse çalışıyor ama kritik ayrıntılarda çuvallıyor
Bu tür başarısızlıkları gördükçe, mevcut nesil yapay zekanın iyi yönetilirse harika işler yapabileceğine inansam da, gerçek zekaya giden doğru yol üzerinde olup olmadığından giderek daha çok şüphe ediyorum
- Doğru. Sektörün çok konuşmadığı bir yetenek-güvenilirlik açığı var
  Yapay zeka sektörü, yetenek ile güvenilirliğin temelden farklı özellikler olduğu gerçeğini sürekli bulanıklaştırıyor gibi. “Doğru” ve “güvenilir” sık sık aynı anlamda kullanılıyor ama bir model benchmark’larda iyi sonuç verse bile gerçek operasyon ortamında risk unsuru olabilir
  METR’in son sonuçları da yetenekteki artışa güçlü tepki veriyor, ama bu ölçümün %50 başarı oranı eşiğine dayandığı daha az konuşuluyor. %80 başarı oranına dayalı yardımcı gösterge ise görev zaman aralığını çok daha kısa gösteriyor: https://metr.org/
  Kurumsal yapay zeka sistemleri uyguluyorum ama %80 güvenilirliği bir yana, %50 güvenilirliği kabul edecek tek bir şirket bile görmedim
- LLM’lerin genel yapay zekaya giden doğru yol olup olmadığından şüpheliydim ama kullanım biçiminin genişlemesi, LLM’ler için harness yapıları ve daha iyi bağlam tasarımıyla bunun ne kadar ileri taşınabildiğini görmek beni hâlâ şaşırtıyor
  LLM’lerin fiilen kendi prompt’larını ve bağlamlarını tasarlayabildiğini görünce, sonsuza kadar insan yönlendirmesine ihtiyaç duyacaklarını sanmıyorum
  Somut bir metodolojisi olan basit olgu temelli işler için LLM uygun araç değil; bu tür işleri tanıyıp daha deterministik çalışan araçlara devredememek de harness’in başarısızlığı bence
  Gerektiğinde bir “teknik” kullanır gibi, belli görevleri araçlara ya da uzmanlaşmış “beyinlere” devretmek gerekiyor
  İlk genel yapay zekanın tek bir beyin değil, birden çok LLM, harness, teknik ve alan/görev odaklı alt sistemin iç içe geçtiği bileşik bir sistem olması daha olası görünüyor
- Claude bazen dönüşüm değerlerini fazla yüksek veriyorsa, bu Avustralya tipi yemek kaşığının ABD’de kullanılanla farklı olmasından kaynaklanıyor olabilir
  Avustralya tipi yemek kaşığı 4 çay kaşığı/20 mL, ABD tipi ise 3 çay kaşığı/15 mL; yani bu hata bir ölçüde gerçek dünyanın karmaşıklığıyla açıklanabilir
  Ama 3,14 çay kaşığı ya da 2 çay kaşığı diyorsa bilemem
- Bu benzetme bana bir yıl önceki görüntü üretim modellerinin garip parmaklarını ve ellerini hatırlattı
  Şimdi büyük ölçüde çözüldü, bugünlerde gerçek hayattan ayırt etmesi zor videolar bile üretiyorlar
  O yüzden bu tür ince hataların da zamanla azalmaya devam edeceğine ve sonunda neredeyse her görevde fark edilmesinin zorlaşacağına inanıyorum
- Dün Copilot üzerinden opus 4.6 kullanarak, dikkat gerektiren büyük bir özelliği rubber duck brainstorming ile düşündüm
  İlham aldım ama son derece temel şeyleri bile yanlış yorumladı. Bu benim kullanım becerimle ilgili de olabilir, o yüzden emin değilim
İşte toplantılar için bir LLM not tutucu kullanıyoruz; yakın zamanda CIO, bir satıcının söz verip tutmadığını iddia ederek çok öfkelendiği için devreye girmem gerekti
O “sözün verildiği” toplantıda CIO yoktu, ben vardım; gerçekte hiçbir söz verilmemişti ve tartışma LLM’in ayrıntılı özetinin verdiğinden çok daha nüanslıydı
Tartışma doğrusal ilerlemediğinde de şaştığını görüyorum. Örneğin SOC ekibiyle son alarm/olay müdahaleleri hakkında gidip gelen bir konuşmada ana fikri yakalıyor ama doğruluğa güveniyorsanız gerçekten büyük hatalar yapıyor
Hastanede bir hemşirenin ilk ziyaret notu gibi, başlıca şikayet, kilo, boy ve son değişimlerin özeti için uygun olabilir ama doktorla geçen ayrıntılı ve teknik soru-cevapta buna güvenmezdim
Uyum açısından da hastaneler kayıtları yeniden yazmak yerine yalnızca transcript kullanmak ister gibi geliyor ama emin değilim
- Yakın zamanda Anneler Günü’nde anneme bir sesli mesaj bıraktım; “açamamana üzüldüm, bu akşam ya da yarın müsait olduğunda arayabilirsin, yakında konuşuruz, seni seviyorum, hoşça kal” gibi sıradan ve insani bir selamlamaydı
  O gece annem geri aradı, biraz konuştuktan sonra dikkatli bir şekilde “Yani... bana mutlaka söylemen gereken bir şey mi vardı?” diye sordu ve ben tamamen afalladım
  Meğer çağrı bildirimindeki LLM özeti, içeriğinin %75’i sosyal ilişkilerde kullanılan dolgu ifadelerinden oluşan sesli mesajı sert ve aşırı resmi bir iş cümlesine dönüştürerek uğursuz bir hava yaratmış
  “Konuşmak istiyorum”, “uygun zamanı soruyor” gibi tek tek ifadelere gereğinden fazla anlam yükleyip, önemli ama belirsiz ve zaman baskısı olan bir şeyi anlatmaya çalışan uzun bir mesaj gibi göstermiş
  Sonuçta annem biraz endişelendi ve bir hatır sorma mesajının böyle bir sonuca yol açmasına sinirlendim. Demek ki artık her şeye yarım pişmiş LLM özetleri tıkıştırılacak
- Şimdiye kadar aldığım tüm sağlık hizmetlerinde kaydı sonradan düzeltebildim ve neredeyse yarısında anlamlı hatalar vardı
  Özet kayıtları her zaman hemen kontrol edin ve bir sorun varsa mümkün olduğunca çabuk doktora ulaşın
  Genelde doktor doğrudan düzeltebiliyor ve herkes daha olayı hatırlıyorken yapılması en iyisi
- Ben de o kısmı merak ediyorum. Neden sadece transcript oluşturup bırakmıyoruz?
  Özellikle uzun transcript’lere sürekli geri dönülecekse, insanın gerekli gördüğü yerlere yanına manuel özetler eklenebilir
  Benim deneyimime göre bu tür etkileşimlerde kabaca ayıklanabilecek gereksiz bilgi çok fazla olmuyor ve ayrıntılar oldukça önemli oluyor
- Transcript bir yandan fazla iyi, bir yandan da yeterince iyi değil. İşin içine üretken içerik girdiğinde daha da kötüleşiyor
  Fazla iyi tarafı şu: birçok ticari ortamda sürekli transcript tutulması yasaklanıyor. Çünkü bazı ayrıntılar kolayca delil keşfine konu olabilecek kayıtlara dönüşüp iş riski yaratıyor
  Toplantı notları veya özetler hassas tartışmaları dışarıda bırakabilir ya da ayrıntı vermeden sadece mutabakatı sunabilir; ayrıca “stratejik muğlaklık” içeren yorum savunmalarına da alan açar
  Yeterince iyi olmama tarafı ise, ses tanımanın da hâlâ olasılıksal olması. Gerçek değerlendirme çıktılarında seçilen kelimeler kadar alternatif kelime ve ifade verisi de bulunabiliyor; bu da söylenmeyen kelimeleri temsil etme ya da farklı bir izlenim yaratma payı bırakıyor
  İnsanların ses tanıma transcript’lerini otoriter kayıt gibi görmesi bu sorunu daha da kötüleştiriyor
  Bunun üstüne özet gibi üretken çıkarım eklerseniz iki sorun da büyüyor. Hukuki danışmanlık açısından bakıldığında, belirli aranabilir terimleri daha az içeren ve sorumluluğu ya da ayrıntıyı bulanıklaştıran özetler daha kolay kabul görebilir
- Benim deneyimimde transcript oldukça iyi çalışıyor ve bu gibi durumlarda transcript’i temel gerçek olarak kabul etmek gerekir
Bunu yakın zamanda bizzat yaşadım. Bana runner’s knee teşhisi kondu ama yapay zeka özetinde osteoporoz teşhisim olduğu, kalça ağrısı çektiğim ve yürümekte zorlandığım yazıyordu; oysa bunların hiçbiri ne söylendi ne de ima edildi
Transcript her zaman kontrol edilmeli. Özellikle LLM transcriber’lar gerçekte olmayan yaygın semptomları eklemeye ya da bazı ayrıntılara uyan ama başka yönlerden uymayan yaygın teşhisleri ileri sürmeye oldukça yatkın
Hatalı kayıtlar sonraki tedaviyi ve maliyeti ciddi biçimde etkileyebilir, bu yüzden mutlaka düzelttirilmesi gerekir
Basit ve yaygın birkaç durum dışında, bana verilen “AI” özetlerin yaklaşık %50’si bir yerinden yanlıştı. Genelde olmayan semptomları varmış gibi gösteriyorlar; bu örnekte olduğu gibi daha ciddi uydurmalar da ara sıra çıkıyor
LLM’ler sıradan speech-to-text yazılımı değildir ve öyle muamele görmemelidir. Gerçekte hiç söylenmemiş tüm cümleleri ekleyebiliyorlar ve tıbbi kayıtlarda bu asla kabul edilemez
- Zoom LLM özetinin, söylenmemiş bir şeyi belli bir kişiye atfedip ciddi soruna yol açtığını bizzat gördüm
  Toplantıya katılamayan başka biri o özeti sonradan okudu ve büyük bir tartışma çıktı; çünkü konu, şirkette süren başka bir anlaşmazlık yüzünden o kişi için hassastı
  Katılımcıların hepsi bunun hata olduğunu doğruladı ama zamanlama tesadüfen öyle denk geldi ki o kişinin bunu kabul etmesi zor oldu. Çünkü LLM özeti, daha önce bazı katılımcıların küçümsediği endişeleri doğruluyormuş gibi bir çerçeve çizmişti
  Sonunda olay öyle büyüdü ki yönetim, bağımsız doğrulama olmadan üretken çıktıların güvenilmemesi gerektiğine dair bir politika oluşturdu; en azından bir ders alınmış oldu
Peki ama insanlar ne kadar doğru? Son 5 yıla ait tıbbi kayıtlarımın çıktısını aldım, kitap kadar kalındı
Bir insanın bunların hepsini okuyup anlamlı bir şey yapmasının zor olduğunu düşünüyorum
Bir yapay zeka aracı bunları tararsa elbette hata yapabilir ya da temelsiz sonuçlara sıçrayabilir, ama hızlıca gözden geçirip tuhaf kısımlara itiraz ederek doğru cevaba ulaşmak, bir hemşire ya da doktorla yapılan herhangi bir görüşmeden daha hızlı olabilir
Sadece kusurlu yönlerine odaklanmak yerine, bu araçları nasıl kullanacağımıza ve tuhaf ya da yanlış kısımlara nasıl itiraz edeceğimize odaklanırsak daha çok iş başarabiliriz
İşte kullandığımız yapay zeka not tutucu toplantıyı da kaydediyor ve her notun yanına kaydın ilgili bölümüne doğrudan giden zaman damgalı bağlantılar ekliyor, böylece kendiniz doğrulayabiliyorsunuz
HIPAA ortamlarında bu çözüm daha karmaşık olabilir ama sağlık gibi kritik alanlarda bu tür bir yaklaşım şart
- Yapay zeka tabanlı kullanıcı deneyimi tasarlarken buna kaynak izlenebilirliği diyoruz
  Güven, güvenilirlik, uyumluluk ve benzeri konularda temel bir unsur
  Eğer bir yazılım sistemi bu tür LLM çıktılarını içeriyor ama insanların değerlendirme ve doğrulama yapabilmesi için çıktının kaynağını göstermiyorsa, en iyi ihtimalle kötü bir kullanıcı deneyimidir, en kötü ihtimalle de tehlikelidir
- Bu bana bir “not tutucu”dan çok ses örneği arama motoru gibi geliyor
  Doğruluk istiyorsanız sonunda hepsini dinlemek zorunda kalırsınız
- Bu yaklaşımın sonunda şu üç şeyden biri gerekir
  Ya biri tüm toplantı kaydını dinleyip bütün notları doğrulamak zorundadır, ki bu ciddi zaman ve insan gücü ister; ya katılımcılar notları hafızalarına göre doğrular, ki bu hataya açıktır; ya da katılımcılar kendi notlarıyla karşılaştırır, ki bu durumda yapay zeka not tutucunun anlamı kalmaz
  Gerçekçi olarak, doğruluğun önemli olduğu herhangi bir bağlamda yapay zeka kullanımı hiçbir biçimde kabul edilebilir değil, ama insanlara bunu kabul ettirmek zor
Bir Kanadalı olarak yapay zekanın doktorların zamanını açığa çıkarıp sağlık sisteminin yükünü azaltma potansiyeli beni heyecanlandırıyor ama bu korkutucu
Daha oraya gelmedik. İleride doktorlar için yapay zeka eğitimi gerekebilir
Bazı apartman sitelerinde artık sağlık kurumu sahipliğindeki iPad’lerle çevrimiçi doktor görüşmeleri bile yapılıyor ve bu, aile hekimi randevu sürecindeki bürokrasiyi aşmayı sağlıyor
Yenilik yönünün doğru olduğunu düşünüyorum ama zaman gerekiyor. Bazen yapay zekanın fazla erken piyasaya sürüldüğü hissine kapılıyorum
- Bence bu teknoloji yanlış uygulanıyor. Örneğin transcript’i sisteme atıp kusursuz çıktı beklemek yerine, LLM’in güçlü yanlarıyla girdinin kalitesini artırıp herkes için fayda sağlamak gerek
  Doktor zamanını açığa çıkarma örneğini alırsak, hasta ziyaretleri genelde dağınık geçer; hastalar birçok sorunu aynı anda anlatır ve doktor da kısa zaman ile düzenleyici açıklama yükümlülükleri altında, tedaviyi etkileyen bilgileri aktarmak zorundadır
  Mükemmel transcript olsa bile yapı herkes için verimsizdir; LLM mükemmel olamaz, sadece autocomplete yapar
  Benim aklımdaki senaryoda hasta, kabul AI’ı ile etkileşime girer; bu sistem saatler süren dağınık anlatımları ya da anksiyete atağı sırasındaki konuşmaları dinler ve doktorun gözden geçirebileceği, yakının da doğruladığı bir ihtiyaç özetiyle ilgili tarama bilgilerini sunar
  O aşamada ilaç erişimi ya da sigorta politikaları gibi faydalı bilgiler de doktor onayıyla sunulabilir ve hasta, zaman baskısı olmadan sistem anlayışını toparlayıp tamamlayabilir
  Amaç, konuşmanın kalitesini artırarak doktorun hastaya daha çok odaklanmasını sağlamak ve hastanın konuşma ihtiyacının tedavinin önüne geçmesini engellemek. Sağlık hizmetlerinde çok sayıda form ve kontrol listesi dolduruluyor; autocomplete’in bu sürece verim katabileceğini düşünüyorum
Toronto’dayım ve doktorum yapay zeka not tutucu kullanıp kullanamayacağını her zaman soruyor, ben de izin veriyorum
Muayene bittiğinde doktor notları gözden geçirip düzeltiyor ve sık sık bilgisayara benden daha fazla konuşmak zorunda kaldığından şikayet ediyor
İyi bir doktor olduğu için neyse ki bu sonradan kontrolü yapıyor ama bu bana, doktorlar istemese bile bunun zorla dayatıldığı izlenimini veriyor
Artık toplantılara katılanların yüksek sesle şunu söylemesi gerekiyor: “Uyarı: Bu toplantıda yapay zeka tarafından yorumlanan ifadeler doğru olmayabilir”
Ben bunu her toplantıda yapıyorum
Bağlantı verilen rapor neredeyse işe yaramaz görünüyor. Hata oranı ya da örneklem büyüklüğü hakkında hiçbir şey söylemiyor; dolayısıyla 20 sistemden 9’unun “bilgiyi manipüle edip hasta tedavi planına öneri eklediği” durumun 10 denemede 10 kez mi yoksa 1000’de 1 kez mi olduğunu bilmiyoruz
Sistem hata oranlarının yüksek olduğunu varsaysak bile, neden benimsendiklerini merak ediyorum
Test etmek çok kolay göründüğü için, gerçekten kötülerse doktorların, hastanelerin ya da devletin kandırılıp bunları satın alması için bir sebep yok gibi görünüyor
- Makaleye göre “platform değerlendirme puanının %30’u yalnızca Ontario içinde yerel bir varlığa sahip olmaya bağlıydı ve tıbbi kayıt doğruluğu toplam puanın yalnızca %4’ünü oluşturuyordu”
  Doğruluk fiilen değerlendirmenin merkezinde değildi; yani Ontario bunu gerçekten önemsememiş
Bunun, Ontario Ministry of Health’in doktorlar, uzman hemşireler ve sağlık sektöründeki diğer profesyoneller için başlattığı AI Scribe programını özel olarak ele aldığı söyleniyor; bu da bakanlığın ne kalitede yazılımı öne süreceğini düşündürüyor
Muhtemelen ağırlık daha çok SOC gibi yeterliliklerdedir
Onaylı tedarikçi listesi şu bağlantıda görünüyor: https://www.supplyontario.ca/vor/software/tender-20123-artif...

Ontario denetçileri, doktorlar için yapay zeka not tutucularının temel gerçekleri sürekli yanlış aktardığını açıkladı

Denetim raporu ve değerlendirme yöntemi

Tespit edilen hatalar

Manuel inceleme ve güvenlik önlemleri

Değerlendirme ağırlıkları sorunu

Ontario Sağlık Bakanlığı’nın yanıtı

İlgili okumalar

1 yorum

Hacker News görüşleri