Ontario denetçileri, doktorlar için yapay zeka not tutucularının temel gerçekleri sürekli yanlış aktardığını açıkladı
(theregister.com)- Ontario’nun sağlık hizmeti sunucuları için onayladığı 20 AI Scribe sisteminde temel bilgilerin atlanması, yanlış bilgi eklenmesi ve söylenmemiş içerik üretilmesi tespit edildi
- Tedarik değerlendirmesi, sahte doktor-hasta kayıtları ile yapay zeka tarafından oluşturulan klinik notların sağlık uzmanları tarafından karşılaştırılması yöntemiyle yapıldı ve 9 sistem tedavi planı önerilerini bile uydurdu
- 12 sistem yanlış ilaç bilgisi ekledi, 17 sistem ise kayıtta geçen hastaların ruh sağlığına ilişkin kritik ayrıntıları kaçırdı
- OntarioMD, doktorlara yapay zeka notlarını manuel olarak gözden geçirmelerini tavsiye etti, ancak onaylı sistemler arasında doğruluk onayını zorunlu kılan bir özellik bulunmuyordu
- Değerlendirme puanında eyalet içinde yerel varlık %30 ağırlığa sahipken, tıbbi not doğruluğu %4’te kaldı; önyargı kontrolü ile risk ve gizlilik değerlendirmeleri ise ayrı ayrı %2 oldu
Denetim raporu ve değerlendirme yöntemi
- Kanada’daki Office of the Auditor General of Ontario tarafından yayımlanan kamusal hizmetlerde yapay zeka kullanımına ilişkin rapor, Ontario Sağlık Bakanlığı’nın AI Scribe programı değerlendirmesini de içeriyor
- Bu program, doktorlar, uzman hemşireler ve diğer sağlık profesyonellerine yönelik yapay zeka not oluşturma araçlarının tedarikini kapsıyor
- Tedarik sürecinde sahte doktor-hasta kayıtları kullanıldı ve sağlık uzmanları, doğruluğu değerlendirmek için özgün kayıtlarla yapay zeka tarafından üretilen klinik notları karşılaştırdı
Tespit edilen hatalar
- 20 sistemden 9’u, kayıtta ele alınmayan içerikleri uydurdu ve hastanın tedavi planına dair öneriler üretti
- Örnek raporlarda “kitle saptanmadı” ya da “hasta kaygılıydı” gibi potansiyel olarak ciddi yanlış bilgiler yer aldı, ancak bunlar kayıtta hiç konuşulmamıştı
- 20 sistemden 12’si hasta notlarına yanlış ilaç bilgisi ekledi
- 20 sistemden 17’si, kayıtta ele alınan hastaların ruh sağlığıyla ilgili kritik ayrıntılarını kaçırdı
- 6 sistem, hastanın ruh sağlığı sorunlarını tamamen ya da kısmen atladı veya kritik ayrıntıları eksik bıraktı
Manuel inceleme ve güvenlik önlemleri
- Doktorların yeni teknolojileri benimsemesini destekleyen ve AI Scribe tedarik sürecine katılan OntarioMD, doktorların yapay zeka tarafından oluşturulan notların doğruluğunu manuel olarak incelemesini tavsiye etti
- Denetim raporuna göre, onaylanan AI Scribe sistemlerinin hiçbirinde doktorun doğruluğu kontrol ettiğini gösteren zorunlu bir onay özelliği bulunmuyor
Değerlendirme ağırlıkları sorunu
- Düşük performansın önemli bir bölümü değerlendirme ağırlıkları sorunuyla bağlantılı
- Platform değerlendirme puanının %30’u, Ontario içinde yerel varlık bulundurmaya ayrılırken, tıbbi notların doğruluğu toplam puanın yalnızca %4’ünü oluşturdu
- Önyargı kontrolü toplam değerlendirme puanının %2’siydi; tehdit, risk ve gizlilik değerlendirmesi %2, SOC 2 Type 2 uyumluluğu ise %4 pay aldı
- Bu ağırlıklar, hatalı veya önyargılı tıbbi kayıtlar üretebilecek ya da hassas kişisel sağlık bilgilerini korumak için yeterli önlemlere sahip olmayan tedarikçilerin seçilmesine yol açabilir
Ontario Sağlık Bakanlığı’nın yanıtı
- The Register, Ontario Sağlık Bakanlığı’na rapor hakkındaki görüşünü ve AI Scribe programına ilişkin tavsiyeleri uygulamayı planlayıp planlamadığını sordu, ancak hemen bir yanıt alamadı
- Bakanlık sözcüsü çarşamba günü CBC’ye, Ontario’da 5.000’den fazla doktorun AI Scribe programına katıldığını ve bu teknolojiyle bağlantılı bilinen bir hasta zararı raporu bulunmadığını söyledi
1 yorum
Hacker News görüşleri
Mevcut yapay zeka teknolojisinin geleceği konusunda genel olarak kötümserlikten iyimserliğe kaymış olsam da, modeller büyük ölçüde gelişirken temel olgu hatalarının hâlâ sürmesi ciddi biçimde takılıyor
Claude Opus ile damak tadıma ve aromaya göre tarif üretmek sihir gibi hissettirirken, yemek kaşığı ile çay kaşığı dönüşümü gibi temel birim hesaplarını yanlış yaptığı anda hevesim kaçıyor
Neredeyse normal davranan bir film karakterinin bir tuhaf çıkıp zombi olduğunun anlaşılması gibi bir his veriyor; bu not tutma örneği de etkileyici biçimde neredeyse çalışıyor ama kritik ayrıntılarda çuvallıyor
Bu tür başarısızlıkları gördükçe, mevcut nesil yapay zekanın iyi yönetilirse harika işler yapabileceğine inansam da, gerçek zekaya giden doğru yol üzerinde olup olmadığından giderek daha çok şüphe ediyorum
Yapay zeka sektörü, yetenek ile güvenilirliğin temelden farklı özellikler olduğu gerçeğini sürekli bulanıklaştırıyor gibi. “Doğru” ve “güvenilir” sık sık aynı anlamda kullanılıyor ama bir model benchmark’larda iyi sonuç verse bile gerçek operasyon ortamında risk unsuru olabilir
METR’in son sonuçları da yetenekteki artışa güçlü tepki veriyor, ama bu ölçümün %50 başarı oranı eşiğine dayandığı daha az konuşuluyor. %80 başarı oranına dayalı yardımcı gösterge ise görev zaman aralığını çok daha kısa gösteriyor: https://metr.org/
Kurumsal yapay zeka sistemleri uyguluyorum ama %80 güvenilirliği bir yana, %50 güvenilirliği kabul edecek tek bir şirket bile görmedim
LLM’lerin fiilen kendi prompt’larını ve bağlamlarını tasarlayabildiğini görünce, sonsuza kadar insan yönlendirmesine ihtiyaç duyacaklarını sanmıyorum
Somut bir metodolojisi olan basit olgu temelli işler için LLM uygun araç değil; bu tür işleri tanıyıp daha deterministik çalışan araçlara devredememek de harness’in başarısızlığı bence
Gerektiğinde bir “teknik” kullanır gibi, belli görevleri araçlara ya da uzmanlaşmış “beyinlere” devretmek gerekiyor
İlk genel yapay zekanın tek bir beyin değil, birden çok LLM, harness, teknik ve alan/görev odaklı alt sistemin iç içe geçtiği bileşik bir sistem olması daha olası görünüyor
Avustralya tipi yemek kaşığı 4 çay kaşığı/20 mL, ABD tipi ise 3 çay kaşığı/15 mL; yani bu hata bir ölçüde gerçek dünyanın karmaşıklığıyla açıklanabilir
Ama 3,14 çay kaşığı ya da 2 çay kaşığı diyorsa bilemem
Şimdi büyük ölçüde çözüldü, bugünlerde gerçek hayattan ayırt etmesi zor videolar bile üretiyorlar
O yüzden bu tür ince hataların da zamanla azalmaya devam edeceğine ve sonunda neredeyse her görevde fark edilmesinin zorlaşacağına inanıyorum
İlham aldım ama son derece temel şeyleri bile yanlış yorumladı. Bu benim kullanım becerimle ilgili de olabilir, o yüzden emin değilim
İşte toplantılar için bir LLM not tutucu kullanıyoruz; yakın zamanda CIO, bir satıcının söz verip tutmadığını iddia ederek çok öfkelendiği için devreye girmem gerekti
O “sözün verildiği” toplantıda CIO yoktu, ben vardım; gerçekte hiçbir söz verilmemişti ve tartışma LLM’in ayrıntılı özetinin verdiğinden çok daha nüanslıydı
Tartışma doğrusal ilerlemediğinde de şaştığını görüyorum. Örneğin SOC ekibiyle son alarm/olay müdahaleleri hakkında gidip gelen bir konuşmada ana fikri yakalıyor ama doğruluğa güveniyorsanız gerçekten büyük hatalar yapıyor
Hastanede bir hemşirenin ilk ziyaret notu gibi, başlıca şikayet, kilo, boy ve son değişimlerin özeti için uygun olabilir ama doktorla geçen ayrıntılı ve teknik soru-cevapta buna güvenmezdim
Uyum açısından da hastaneler kayıtları yeniden yazmak yerine yalnızca transcript kullanmak ister gibi geliyor ama emin değilim
O gece annem geri aradı, biraz konuştuktan sonra dikkatli bir şekilde “Yani... bana mutlaka söylemen gereken bir şey mi vardı?” diye sordu ve ben tamamen afalladım
Meğer çağrı bildirimindeki LLM özeti, içeriğinin %75’i sosyal ilişkilerde kullanılan dolgu ifadelerinden oluşan sesli mesajı sert ve aşırı resmi bir iş cümlesine dönüştürerek uğursuz bir hava yaratmış
“Konuşmak istiyorum”, “uygun zamanı soruyor” gibi tek tek ifadelere gereğinden fazla anlam yükleyip, önemli ama belirsiz ve zaman baskısı olan bir şeyi anlatmaya çalışan uzun bir mesaj gibi göstermiş
Sonuçta annem biraz endişelendi ve bir hatır sorma mesajının böyle bir sonuca yol açmasına sinirlendim. Demek ki artık her şeye yarım pişmiş LLM özetleri tıkıştırılacak
Özet kayıtları her zaman hemen kontrol edin ve bir sorun varsa mümkün olduğunca çabuk doktora ulaşın
Genelde doktor doğrudan düzeltebiliyor ve herkes daha olayı hatırlıyorken yapılması en iyisi
Özellikle uzun transcript’lere sürekli geri dönülecekse, insanın gerekli gördüğü yerlere yanına manuel özetler eklenebilir
Benim deneyimime göre bu tür etkileşimlerde kabaca ayıklanabilecek gereksiz bilgi çok fazla olmuyor ve ayrıntılar oldukça önemli oluyor
Fazla iyi tarafı şu: birçok ticari ortamda sürekli transcript tutulması yasaklanıyor. Çünkü bazı ayrıntılar kolayca delil keşfine konu olabilecek kayıtlara dönüşüp iş riski yaratıyor
Toplantı notları veya özetler hassas tartışmaları dışarıda bırakabilir ya da ayrıntı vermeden sadece mutabakatı sunabilir; ayrıca “stratejik muğlaklık” içeren yorum savunmalarına da alan açar
Yeterince iyi olmama tarafı ise, ses tanımanın da hâlâ olasılıksal olması. Gerçek değerlendirme çıktılarında seçilen kelimeler kadar alternatif kelime ve ifade verisi de bulunabiliyor; bu da söylenmeyen kelimeleri temsil etme ya da farklı bir izlenim yaratma payı bırakıyor
İnsanların ses tanıma transcript’lerini otoriter kayıt gibi görmesi bu sorunu daha da kötüleştiriyor
Bunun üstüne özet gibi üretken çıkarım eklerseniz iki sorun da büyüyor. Hukuki danışmanlık açısından bakıldığında, belirli aranabilir terimleri daha az içeren ve sorumluluğu ya da ayrıntıyı bulanıklaştıran özetler daha kolay kabul görebilir
Bunu yakın zamanda bizzat yaşadım. Bana runner’s knee teşhisi kondu ama yapay zeka özetinde osteoporoz teşhisim olduğu, kalça ağrısı çektiğim ve yürümekte zorlandığım yazıyordu; oysa bunların hiçbiri ne söylendi ne de ima edildi
Transcript her zaman kontrol edilmeli. Özellikle LLM transcriber’lar gerçekte olmayan yaygın semptomları eklemeye ya da bazı ayrıntılara uyan ama başka yönlerden uymayan yaygın teşhisleri ileri sürmeye oldukça yatkın
Hatalı kayıtlar sonraki tedaviyi ve maliyeti ciddi biçimde etkileyebilir, bu yüzden mutlaka düzelttirilmesi gerekir
Basit ve yaygın birkaç durum dışında, bana verilen “AI” özetlerin yaklaşık %50’si bir yerinden yanlıştı. Genelde olmayan semptomları varmış gibi gösteriyorlar; bu örnekte olduğu gibi daha ciddi uydurmalar da ara sıra çıkıyor
LLM’ler sıradan speech-to-text yazılımı değildir ve öyle muamele görmemelidir. Gerçekte hiç söylenmemiş tüm cümleleri ekleyebiliyorlar ve tıbbi kayıtlarda bu asla kabul edilemez
Toplantıya katılamayan başka biri o özeti sonradan okudu ve büyük bir tartışma çıktı; çünkü konu, şirkette süren başka bir anlaşmazlık yüzünden o kişi için hassastı
Katılımcıların hepsi bunun hata olduğunu doğruladı ama zamanlama tesadüfen öyle denk geldi ki o kişinin bunu kabul etmesi zor oldu. Çünkü LLM özeti, daha önce bazı katılımcıların küçümsediği endişeleri doğruluyormuş gibi bir çerçeve çizmişti
Sonunda olay öyle büyüdü ki yönetim, bağımsız doğrulama olmadan üretken çıktıların güvenilmemesi gerektiğine dair bir politika oluşturdu; en azından bir ders alınmış oldu
Peki ama insanlar ne kadar doğru? Son 5 yıla ait tıbbi kayıtlarımın çıktısını aldım, kitap kadar kalındı
Bir insanın bunların hepsini okuyup anlamlı bir şey yapmasının zor olduğunu düşünüyorum
Bir yapay zeka aracı bunları tararsa elbette hata yapabilir ya da temelsiz sonuçlara sıçrayabilir, ama hızlıca gözden geçirip tuhaf kısımlara itiraz ederek doğru cevaba ulaşmak, bir hemşire ya da doktorla yapılan herhangi bir görüşmeden daha hızlı olabilir
Sadece kusurlu yönlerine odaklanmak yerine, bu araçları nasıl kullanacağımıza ve tuhaf ya da yanlış kısımlara nasıl itiraz edeceğimize odaklanırsak daha çok iş başarabiliriz
İşte kullandığımız yapay zeka not tutucu toplantıyı da kaydediyor ve her notun yanına kaydın ilgili bölümüne doğrudan giden zaman damgalı bağlantılar ekliyor, böylece kendiniz doğrulayabiliyorsunuz
HIPAA ortamlarında bu çözüm daha karmaşık olabilir ama sağlık gibi kritik alanlarda bu tür bir yaklaşım şart
Güven, güvenilirlik, uyumluluk ve benzeri konularda temel bir unsur
Eğer bir yazılım sistemi bu tür LLM çıktılarını içeriyor ama insanların değerlendirme ve doğrulama yapabilmesi için çıktının kaynağını göstermiyorsa, en iyi ihtimalle kötü bir kullanıcı deneyimidir, en kötü ihtimalle de tehlikelidir
Doğruluk istiyorsanız sonunda hepsini dinlemek zorunda kalırsınız
Ya biri tüm toplantı kaydını dinleyip bütün notları doğrulamak zorundadır, ki bu ciddi zaman ve insan gücü ister; ya katılımcılar notları hafızalarına göre doğrular, ki bu hataya açıktır; ya da katılımcılar kendi notlarıyla karşılaştırır, ki bu durumda yapay zeka not tutucunun anlamı kalmaz
Gerçekçi olarak, doğruluğun önemli olduğu herhangi bir bağlamda yapay zeka kullanımı hiçbir biçimde kabul edilebilir değil, ama insanlara bunu kabul ettirmek zor
Bir Kanadalı olarak yapay zekanın doktorların zamanını açığa çıkarıp sağlık sisteminin yükünü azaltma potansiyeli beni heyecanlandırıyor ama bu korkutucu
Daha oraya gelmedik. İleride doktorlar için yapay zeka eğitimi gerekebilir
Bazı apartman sitelerinde artık sağlık kurumu sahipliğindeki iPad’lerle çevrimiçi doktor görüşmeleri bile yapılıyor ve bu, aile hekimi randevu sürecindeki bürokrasiyi aşmayı sağlıyor
Yenilik yönünün doğru olduğunu düşünüyorum ama zaman gerekiyor. Bazen yapay zekanın fazla erken piyasaya sürüldüğü hissine kapılıyorum
Doktor zamanını açığa çıkarma örneğini alırsak, hasta ziyaretleri genelde dağınık geçer; hastalar birçok sorunu aynı anda anlatır ve doktor da kısa zaman ile düzenleyici açıklama yükümlülükleri altında, tedaviyi etkileyen bilgileri aktarmak zorundadır
Mükemmel transcript olsa bile yapı herkes için verimsizdir; LLM mükemmel olamaz, sadece autocomplete yapar
Benim aklımdaki senaryoda hasta, kabul AI’ı ile etkileşime girer; bu sistem saatler süren dağınık anlatımları ya da anksiyete atağı sırasındaki konuşmaları dinler ve doktorun gözden geçirebileceği, yakının da doğruladığı bir ihtiyaç özetiyle ilgili tarama bilgilerini sunar
O aşamada ilaç erişimi ya da sigorta politikaları gibi faydalı bilgiler de doktor onayıyla sunulabilir ve hasta, zaman baskısı olmadan sistem anlayışını toparlayıp tamamlayabilir
Amaç, konuşmanın kalitesini artırarak doktorun hastaya daha çok odaklanmasını sağlamak ve hastanın konuşma ihtiyacının tedavinin önüne geçmesini engellemek. Sağlık hizmetlerinde çok sayıda form ve kontrol listesi dolduruluyor; autocomplete’in bu sürece verim katabileceğini düşünüyorum
Toronto’dayım ve doktorum yapay zeka not tutucu kullanıp kullanamayacağını her zaman soruyor, ben de izin veriyorum
Muayene bittiğinde doktor notları gözden geçirip düzeltiyor ve sık sık bilgisayara benden daha fazla konuşmak zorunda kaldığından şikayet ediyor
İyi bir doktor olduğu için neyse ki bu sonradan kontrolü yapıyor ama bu bana, doktorlar istemese bile bunun zorla dayatıldığı izlenimini veriyor
Artık toplantılara katılanların yüksek sesle şunu söylemesi gerekiyor: “Uyarı: Bu toplantıda yapay zeka tarafından yorumlanan ifadeler doğru olmayabilir”
Ben bunu her toplantıda yapıyorum
Bağlantı verilen rapor neredeyse işe yaramaz görünüyor. Hata oranı ya da örneklem büyüklüğü hakkında hiçbir şey söylemiyor; dolayısıyla 20 sistemden 9’unun “bilgiyi manipüle edip hasta tedavi planına öneri eklediği” durumun 10 denemede 10 kez mi yoksa 1000’de 1 kez mi olduğunu bilmiyoruz
Sistem hata oranlarının yüksek olduğunu varsaysak bile, neden benimsendiklerini merak ediyorum
Test etmek çok kolay göründüğü için, gerçekten kötülerse doktorların, hastanelerin ya da devletin kandırılıp bunları satın alması için bir sebep yok gibi görünüyor
Doğruluk fiilen değerlendirmenin merkezinde değildi; yani Ontario bunu gerçekten önemsememiş
Bunun, Ontario Ministry of Health’in doktorlar, uzman hemşireler ve sağlık sektöründeki diğer profesyoneller için başlattığı AI Scribe programını özel olarak ele aldığı söyleniyor; bu da bakanlığın ne kalitede yazılımı öne süreceğini düşündürüyor
Muhtemelen ağırlık daha çok SOC gibi yeterliliklerdedir
Onaylı tedarikçi listesi şu bağlantıda görünüyor: https://www.supplyontario.ca/vor/software/tender-20123-artif...