věda

Benchmarky v medicíně: slib a úskalí hodnocení nástrojů AI s neshodnými měřítky

V květnu 2024 vydal OpenAI HealthBenchNový benchmarking systém pro testování klinických schopností velkých jazykových modelů (LLM), jako je Chatgpt. Na povrchu to může znít jako další technická aktualizace. Ale pro lékařský svět to znamenalo důležitý okamžik – tiché uznání, že naše současné způsoby hodnocení lékařské AI jsou zásadně špatné.

Titulky v nedávné minulosti trumpetovaly, že AI „překonává lékaře“ nebo „lékařské zkoušky ACES“. Dojem, který prochází, je, že tyto modely jsou chytřejší, rychlejší a možná ještě bezpečnější. Ale tento humbuk maskuje hlubší pravdu. A co je jasně, benchmarky používané k dosažení těchto tvrzení jsou založeny na zkouškách vytvořených pro hodnocení zadržování lidské paměti z učení ve třídě. Odměňují fakt vzpomínat, nikoli klinický úsudek.

Problém kalkulačky

Kalkulačka může během několika sekund znásobit dvě šestimístná čísla. Působivé, nepochybně. Znamená to však, že kalkulačky jsou lepší než a rozumíte matematice více než odborníci na matematiku? Nebo lépe dokonce než obyčejný člověk, který trvá několik minut, než výpočet s perem a papírem trvá?

Jazykové modely se slaví, protože mohou chrlit odpovědi na učebnici na MCQ a vyplnit mezery pro lékařská fakta a otázky rychleji než lékařští profesoři. Praxe medicíny však není kvíz. Skuteční lékaři se zabývají nejednoznačností, emocemi a rozhodováním pod nejistotou. Poslouchají, pozorují a přizpůsobují se.

Ironií je, že zatímco AI bije lékaře při zodpovězení otázek, stále se snaží generovat samotné případové viněty, které tvoří základ těchto otázek. Psaní dobrého klinického scénáře od skutečných pacientů v klinické praxi vyžaduje pochopení lidského utrpení, filtrování irelevantní detaily a rámování diagnostického dilematu kontextem. Zatím to zůstává hluboce lidskou schopností.

Přečtěte si také: Proč AI ve zdravotnictví potřebuje přísné bezpečnostní protokoly

Co stávající benchmarky chybí

Nejrozšířenější měřítka-MEDQA, PubMedqa, Multimedqa-se navázala na strukturované otázky s jednou „správnou“ odpovědí nebo vyplňte otázky mezery. Hodnotí faktickou přesnost, ale přehlíží lidskou nuanci. Pacient neříká: „Používal jsem vadné židli a posadil jsem se ve špatném držení těla po dlouhé hodiny a od té doby, co jsem ho koupil, jsem měl nespecifické bolesti. Jen říkají: „Doktore, jsem unavený. Necítím se jako já.“ To je místo, kde začíná skutečná práce.

Klinické prostředí jsou chaotické. Lékaři se zabývají překrývajícími se nemocemi, vágními příznaky, neúplnými poznámkami a pacienty, kteří nemusí být schopni – nebo neochotní – vyprávět celý příběh. Komunikační mezery, emocionální úzkost a dokonce i sociokulturní faktory ovlivňují to, jak se odehrává péče. A přesto naše metriky hodnocení nadále hledají přesnost, jasnost a správnost – to, co skutečný svět jen zřídka poskytuje.

Benchmarking vs realita

Může být snadné rozhodnout, kdo je nejlepší těsto na světě, pouze skóroval počítání běhů. Podobně mohou být nadhazovači hodnoceni podle počtu odebraných branky. Odpověď na otázku „Kdo je nejlepším hráčem?“ nemusí být tak jednoduché. Měření pole je velmi subjektivní a vyhýbá se jednoduchým číslem. Část příběhu vypráví počet asistenčních nebo úlovků. Úsilí vynaložené na hraniční linii o snížení běhů nebo pouhé zastrašování v přítomnosti polních (jako Jonty Rhodes nebo R. Jadeja) zabraňující běhu na obálkách nebo bodech nelze snadno měřit.

Zdravotní péče je jako pole: je kvalitativní, často neviditelný, hluboce kontextový a těžko kvantifikovatelný. Jakýkoli měřítko, které předstírá jinak, bude v omyl více, než se osvětluje.

To není nový problém. V roce 1946, státní úředník Sir Joseph Bhore, když byl konzultován k reformě Indické zdravotní péče, řekl: „Pokud by bylo možné vyhodnotit ztrátu, kterou tato země každoročně trpí prostřednictvím plýtvání cenným lidským materiálem a snížením lidské účinnosti by se nekopovalo, dokud by nebyla radikální změna, která by nebyla odpočinutá, a to by nebylo restr Tento citát odráží dlouhodobé dilema – jak měřit, na čem skutečně záleží ve zdravotnických systémech. Dokonce ani po 80 letech jsme nenašli perfektní metriky hodnocení.

Co HealthBench dělá

HealthBench alespoň potvrdí toto odpojení. Vyvinutá společností OpenAI ve spolupráci s klinickými lékaři se vzdává od tradičních formátů s více možnostmi výběru. Je to také první měřítko, které výslovně skóroval odpovědi pomocí 48 562 jedinečných kritérií rubrikyod mínus 10 do plus 10, odrážející některé aspekty reálných sázek klinického rozhodování. Nebezpečně špatná odpověď musí být potrestána tvrdší než mírně užitečná. To konečně odráží morální prostředí medicíny.

Přesto má HealthBench omezení. Vyhodnocuje výkon v pouhých 5 000 „simulovaných“ klinických případech, z nichž pouze 1 000 je klasifikováno jako „obtížné“. To je mizivě malý kousek klinické složitosti. Přestože je to chvályhodně globální, její fond lékař-rater zahrnuje pouze 262 lékařů z 60 zemí v 52 jazycích, s různými profesními zkušenostmi a kulturním zázemím (zúčastnili se tři lékaři z Indie a byly vytvořeny simulace z 11 indických jazyků). HealthBench tvrdý, náročná podmnožina 1 000 případů, odhalila, že mnoho stávajících modelů skórovalo nulu – na vysoké osvětlení jejich neschopnosti zvládnout složité klinické uvažování. Navíc jsou tyto případy stále simulace. Benchmark je tedy zlepšení, nikoli revolucí.

Přečtěte si také: Umělá inteligence ve zdravotnictví: Co leží před námi

Prediktivní kolaps AI ve skutečném světě

Nejde jen o LLM. Prediktivní modely čelily podobným selháním. Nástroj pro predikci sepse, vyvinutý společností EPIC, aby označil předčasné známky sepse, ukázal před několika lety počáteční slib. Po nasazení však nemohl smysluplně zlepšit výsledky. Další společnost, která tvrdila, že vyvinula detekční algoritmus pro příjemce transplantace jater, se tiše složila poté, co jeho model ukázal zaujatost proti mladým pacientům v Británii. Ve skutečném světě to selhalo navzdory zářícím výkonům na benchmarkových datových souborech. Proč? Protože předpovídání vzácných/kritických událostí vyžaduje rozhodování o kontextu. Zdánlivě neznámý determinant může vést k nesprávným předpovědím a zbytečným přijetím na JIP. Náklady na chybu jsou vysoké – a lidé ji často nesou.

Co dělá dobrý měřítko?

Robustní lékařský měřítko by mělo splňovat čtyři kritéria:

Reprezentovat realitu: Zahrnujte neúplné záznamy, protichůdné příznaky a hlučné prostředí.

Testovací komunikace: Změřte, jak dobře model vysvětluje jeho zdůvodnění, nejen jako odpověď dává.

Případy na okraji: Vyhodnoťte výkon na vzácných, eticky složitých nebo emocionálně nabitých scénářích.

Odměňování bezpečnosti nad jistotou: Penalizovat nadměrné přesvědčení nesprávných odpovědí více než skromnou nejistotu.

V současné době většina benchmarků chybí tato kritéria. A bez těchto prvků riskujeme, že důvěřujeme technicky inteligentním, ale klinicky naivním modelům.

Červená spojování modelů

Jedním ze způsobů, jak vpřed, je červené týmové týmy-metoda vypůjčená od kybernetické bezpečnosti, kde jsou systémy testovány proti nejednoznačným, okrajovým nebo morálně složitým scénářům. Například: pacient v duševní nouzi, jehož příznaky mohou být somatický; nezdokumentovaný nelegální přistěhovalec, který se obává zveřejňování historie cestování; Dítě s vágními neurologickými příznaky a úzkostným rodičem tlačícího na CT skenování; těhotná žena s náboženskými námitkami vůči krevní transfúzi; Pacient s rakovinou terminálu si není jistý, zda bude provádět agresivní léčbu nebo paliativní péči; pacient předstírá osobní zisk.

V těchto případech hrany musí modely přesahovat znalosti. Musí projevovat úsudek – nebo přinejmenším vědí, kdy to nevědí. Červené týmové týmy nenahrazují benchmarky. Přidává však hlubší vrstvu, odhaluje nadměrnou důvěru, nebezpečnou logiku nebo nedostatek kulturní citlivosti. Na těchto nedostatcích záleží více než za tikat správné odpovědi v reálném medicíně. Červené týmové síly nutí modely odhalit, co vědí a jak si myslí. Odhaluje tyto aspekty, které mohou být skryty v benchmarkových skóre.

Proč na tom záleží

Hlavní napětí je toto: Medicine není jen o tom, jak správně odpovědět. Jde o to, aby lidé napravili. Lékaři jsou vyškoleni, aby se vypořádali s pochybnostmi, zpracovávali výjimky a rozpoznali kulturní vzorce, které se v knihách nevyučovaly (lékaři také hodně chybí). Naproti tomu AI je pouze tak dobrá jako data, která zaznamenala, a otázky, na které byl vyškolen. HealthBench je pro všechny své nedostatky malá, ale životně důležitá korekce kurzu. Uznává, že hodnocení se musí změnit. Představuje lepší bodovací rubriku. Potahuje se těžší otázky. To je lepší. Musíme však zůstat opatrní. Zdravotní péče není jako rozpoznávání obrázků nebo překlad jazyka. Jediný nesprávný výstup modelu může znamenat ztracený život a zvlnění – misdiagnosy, soudní spory, porušení dat a dokonce i zdravotní krize. Ve věku otravy dat a halucinace modelu jsou sázky existenciální.

Cesta před námi

Musíme se přestat ptát, zda je AI lepší než lékaři. To není správná otázka. Místo toho bychom se měli zeptat: Kde je AI bezpečné, užitečné a etické nasadit – a kde to není? Benchmarky, pokud jsou zamyšleně přepracovány, na to mohou pomoci odpovědět. AI ve zdravotnictví není konkurencí o vítězství. Je odpovědností sdílet. Musíme přestat zacházet s výkonem modelu jako sport s žebříkem a začít ho považovat za bezpečnostní kontrolní seznam. Do té doby může AI pomoci. Může to shrnout. Může to připomenout. Nemůže však nahradit morální a emoční váhu klinického úsudku. Určitě to nemůže sedět vedle umírajícího pacienta a vědět, kdy mluvit a kdy mlčet.

(Dr. C. Aravinda je akademický a lékařský lékař.

Zdrojový odkaz

Related Articles

Back to top button