Hlasový test AI by mohl pomoci spatřit nebezpečné léze na krk, než se objeví příznaky

Měřením jemných změn v kvalitě hlasu by AI mohla lékařům pomoci detekovat nebezpečné léze vokálního ohybu, než se příznaky zhoršují.
Studie: Hlas jako biomarker: Průzkumná analýza pro benigní a maligní vokální léze. Obrázek kredit: 3dmedisphere / Shutterstock
Průzkumná studie ukazuje, že jemné změny hlasových vzorců, zejména variabilita v poměru harmonického k šumu, by mohly sloužit jako včasné varovné známky vokálních lézí a vydláždit cestu pro budoucí screeningové nástroje poháněné AI.
Nová studie vedená Oregonskou zdravotnickou a vědeckou univerzitou a vědci z Portlandské státní univerzity identifikovala odlišné hlasové rysy, které mohou sloužit jako potenciální biomarkery pro včasnou detekci benigních a maligních vokálních záhybů. Studie je zveřejněna v časopise Hranice v digitálním zdraví.
Pozadí
Změny hlasového hřiště, hlasitosti a kvality charakterizují hlasové poruchy. Tyto poruchy mohou potenciálně vyvolat různé faktory, včetně patologie vokálního záhybu, neurologických podmínek nebo funkčního hlasového použití.
Jednotlivci s poruchami hlasu často zažívají špatnou kvalitu života, nízkou sebeúctu, potíže související s prací a sociální izolaci. Tyto zkušenosti jsou zvláště výraznější mezi jednotlivci, jejichž profesní role významně závisí na hlasové komunikaci.
S poruchy hlasu jsou spojeny benigní i maligní vokální léze (rakovina hrtanu). Zatímco benigní léze podstatně ovlivňují kvalitu hlasu a způsobují morbiditu, maligní léze jsou často ohrožující život, pokud se neléčí.
Dysfonie (stav charakterizovaný abnormálním hlasem) je jedním z prvních příznaků vokálních lézí, který vyžaduje diagnostický proces, včetně vizualizace hrtanu a hodnocení morfologie léze prostřednictvím video endoskopie. Hrtan je anatomická struktura v krku, kde jsou umístěny vokální záhyby.
Nedávné pokroky v technologiích umělé inteligence (AI) usnadnily analýzu lidského hlasu pro včasnou detekci různých zdravotních stavů, včetně patologie hrtanu, neurologických a psychologických poruch, rakoviny hlavy a krku a cukrovky.
Použití hlasu jako digitálního Biomarker Poskytuje slibnou platformu pro neinvazivní detekci a screening těchto potenciálně život ohrožujících podmínek. Cílem projektu Voice to AI, jako součást konsorcia Národních ústavů pro zdraví (NIH) k umělé inteligenci (Bridge2AI), je analyzovat hlas jako biomarker zdraví pro použití v klinické péči.
V této studii vědci analyzovali datový soubor Bridge2ai-Voice, aby identifikovali specifické akustické rysy, které účinně rozlišují rakovinu hrtanu a benigní vokální léze od jiných vokálních patologií a zdravé hlasové funkce. Akustické rysy odkazují na měřitelné vlastnosti hlasové, včetně tónu, hlasitosti a kvality.
Studie
Datový soubor analyzovaný ve studii zahrnuje 12 523 nahrávek 306 účastníků shromážděných na pěti místech v Severní Americe. Akustické analýzy zaměřené na nahrávky duhových průchodů (180 nahrávek od 176 účastníků) s funkcemi předem extrahovanými pomocí softwaru OpenSmile. Hlavním cílem studie byla identifikace akustických rysů, které dokážou rozlišit hlasy účastníků s vokálními lézemi od těch bez jakýchkoli vokálních poruch a také odlišit hlasy účastníků lézemi od těch s jinými vokálními poruchami.
Účastníci byli kategorizováni do dvou skupin na základě diagnózy typu léze a diagnózy vokální poruchy. První skupina zahrnovala účastníky s rakovinou hrtanu, benigní léze nebo žádnou hlasovou poruchu a druhá skupina zahrnovala účastníky s rakovinou hrtanu nebo benigní léze bez jiných hlasových poruch, jakož i ty s jinými vokálními poruchami (spasmodická dysfonie nebo hlasovou záhybnou ralýza). Účastníci transgenderu byli vyloučeni z sexuálních stratifikovaných analýz, protože předchozí péče o hlasové měnící se nemohla být ověřena.
Z hlasových záznamů účastníků byly pro srovnávací analýzu extrahovány čtyři akustické rysy plus variabilita (standardní odchylka) HNR, základní frekvence, jitter, třpyt a harmonický k šumu (HNR). Základní frekvence odkazuje na frekvenci, při které vokální šňůry vibrují; Jitter je míra základních frekvenčních fluktuací; Shimmer je míra fluktuací v amplitudě zvukových vln; a HNR je poměr periodické a aperiodické složky v řečovém signálu.
Klíčová zjištění
Analýza akustických rysů odhalila, že účastníci s benigními lézemi mají výrazně odlišnou průměrnou HNR a základní frekvenci ve srovnání s těmi bez jakékoli hlasové poruchy a výrazně odlišnou variabilitu HNR (SD) ve srovnání s laryngeální rakovinou. Variabilita HNR (SD) se mezi benigními lézemi a žádnou hlasovou poruchou významně nelišila. Průměrná HNR a základní frekvence se významně nelišily mezi benigními lézemi a rakovinou hrtanu.
Srovnání související s genderem odhalené u cisgenderových mužů podobné rozdíly v průměrné variabilitě HNR a HNR vs žádnou hlasovou poruchu a variabilitu HNR vs. rakovina hrtanu, ale ne u ženských účastníků, což by mohlo být způsobeno menší velikostí vzorku.
V žádném srovnání nebyly zjištěny žádné významné rozdíly pro jitter nebo třpyt a žádný akustický rys významně odlišný lézí od jiných vokálních poruch ve druhé analytické skupině.
Význam studie
Studie identifikuje variabilitu poměru harmonického k šumu (standardní odchylka) jako slibný biomarker související s hlasem pro včasnou detekci a monitorování vokálních lézí. Periodická složka tohoto poměru vzniká z pravidelných glottálních pulzů během fonace a aperiodická složka je šum vyvolaný z turbulence, když vzduch protéká skrz glottis (střed hrtanu).
Ve studii byla měřena průměrná i standardní odchylka poměru harmonického k šumu, protože vědci věřili, že tato variabilita by pomohla měřit konzistenci v hlasové produkci. Pozorované rozdíly ve standardní odchylce mezi benigními a maligními skupinami léze naznačují, že tento rys může sloužit jako užitečný marker pro monitorování progrese lézí a detekci rakoviny hrtanu v rané fázi.
Studie však nemohla detekovat významné rozdíly v poměru harmonického k šumu a její variabilitu mezi účastníky s benigními nebo maligními lézemi a těmi s jinými vokálními poruchami. To ukazuje, že rozlišovací léze od jiných vokálních patologií může být náročnější.
Zejména studie nemohla detekovat významné rozdíly v poměru harmonického k šumu a její variabilitu mezi účastníky. To zdůrazňuje potřebu analýzy dalších akustických prvků, aby se hlas považoval za slibný časný ukazatel vokálních lézí.
Autoři zdůrazňují, že se jedná o průzkumné nálezy a nepředstavují ověřený screeningový test. Vyžadují větší, rozmanitější kohorty a další akustické rysy, které mají být posouzeny, zejména u žen, před integrací do klinických nástrojů.
Celkově zjištění studie zdůrazňují budoucí potenciál validovaných nástrojů pro screeningové hlasové AI k identifikaci jednotlivců s jemnými změnami hlasu, kteří jinak nemusí hledat péči, zejména v primární péči nebo v oblasti telehealthu. Takové nástroje by mohly vyvolat dřívější doporučení hlasovým odborníkům, pomoci upřednostňovat naléhavé případy a snížit diagnostické zpoždění.