Přímý překlad zobrazování mozku do textu s Mindllm

Přehled metody. Mindllm je vybaven předmětem-agnostickým kodérem fMRI a off-the-shelf LLM. MindllM je vyškolena na více předmětech s různými vstupními tvary a datovým souborem pro vyladění instrukcí, jejichž cílem je kódovat různé aspekty sémantických informací v fMRI. Po tréninku je Mindllm schopna různých textových dekódovacích úkolů. Jednou aplikací je, že dekódovaný obsah lze použít k dosažení neurální kontroly stávajících systémů, které pro něj nejsou navrženy. Kredit: arxiv (2025). Doi: 10,48550/arxiv.2502.15786
Yale University, Dartmouth College a University of Cambridge vědci vyvinuli Mindllm, předmět-agnostický model pro dekódování funkčního zobrazování magnetickou rezonance (fMRI) do textu.
Integrace mechanismu pozornosti založeného na neurovědě s velkým jazykovým modelem (LLM) model překonává existující přístupy s 12,0% zlepšením v postupujících úkolech, 16,4% zvýšení neviditelné zobecnění předmětu a 25,0% posílení nových přizpůsobení úkolu a neibrainu.
Dekódování aktivita mozku do přirozený jazyk má významné důsledky pro aplikace neurovědy a mozkového počítače. Předchozí pokusy čelily výzvám v prediktivním výkonu, omezené rozmanitosti úkolů a špatné zobecnění napříč subjekty. Stávající přístupy často vyžadují parametry specifické pro dané subjekty, což omezuje jejich schopnost zobecnit napříč jednotlivci.
Ve studii „Mindllm: subjekt-agnostický a všestranný model pro dekódování fMRI-to-text“, “ Publikováno na serveru před tiskem arxivMindllm byl vyhodnocen pomocí komplexních fMRI-toxtových benchmarků založených na datech od osmi jedinců (NSD-přírodní scény datového souboru), široce používaného standardního datového souboru ve výzkumu fMRI.
Design MindllM se skládá z kodéru fMRI a a velký jazykový model.
Nejprve fMRI skenuje mozek na mozek na malé 3D jednotky zvané voxels (jako 3D pixely). Různí lidé mají různé mozkové struktury, které se nikdy neshodují, když jsou zarovnány se standardizovaným mozkovým atlasu. Vzhledem k tomu, že se počet a uspořádání aktivních voxelů může lišit (12 682 až 17 907 u jednotlivců ve studii), jsou pro každý subjekt vyžadovány různé vstupní rozměry.
Protože mozkové funkce zůstávají u jednotlivců konzistentní, i když se distribuce voxelů liší, mapování aktivity neurovědy v kodéru fMRI (pomocí modifikovaného mechanismu pozornosti) umožňuje systému přizpůsobit tyto různé vstupní tvary napříč subjekty.
Oddělením funkčních informací voxelu od jeho surové hodnoty fMRI model využívá již existující znalosti od výzkumu neurovědy a zlepšuje konzistenci mezi jednotlivci.

Porovnání modelů. Mindbridge (Wang et al., 2024a) zplošťuje voxely a adaptivně je spojí s pevnou dimenzí, která přehlíží bohaté informace v pozicích. UniBrain (Wang et al., 2024b) rovnoměrně vzorkuje podskupinu voxelů a agreguje jejich sousedy. Kredit: arxiv (2025). Doi: 10,48550/arxiv.2502.15786
Ladění mozků (bit) dále zvyšuje schopnost systému extrahovat rozmanité sémantické reprezentace ze signálů fMRI. BIT je přístup k vyladění instrukcí, který používá rozsáhlé datové sady fMRI, které obsahují záznamy fMRI od více lidí, kteří sledují stejné obrázky. Tato data s více subjekty fMRI a související textové anotace posilují sémantické porozumění modelu.
Komplexní benchmarky FMRI-to-text vyhodnotily výkon modelu a prokázaly vynikající výsledky v mozku, zodpovězení otázek a uvažování.
Mindllm se lépe přizpůsobuje novým předmětem a zlepšuje výkon o 16,4% oproti předchozím modelům agnostických předmětů. Je o 25% více přizpůsobivější novým úkolům, což mu umožňuje efektivně zvládnout různé výzvy.
Vzory pozornosti modelu ukazují spojení mezi specifickými oblastmi mozku a kognitivními funkcemi, jako je vnímání a uvažování.
Mnoho předchozích modelů se zaměřuje výhradně na generování titulků ze signálů fMRI souvisejících s vizuálními podněty. Mindllm překonává tato omezení integrací datových sad, které podporují vyhledávání znalostí, zpracování symbolického jazyka a složité uvažování.
Zahrnutí úkolů založených na paměti, jako je načítání popisů dříve vidět obrazů, posiluje použitelnost modelu na kognitivní neurovědu. Otevřené schopnosti odpovědnosti s otázkou dále rozšiřují rozsah možných aplikací a prospívají lékařským i výzkumným nastavením.
Zavedené neurovědné atlasy, včetně těch, které skrývají a válečky, poskytují funkční předchůdce, které pomáhají modelu rozlišovat mezi pozicemi voxelů a hodnotami aktivity. Integrací těchto standardizovaných mapování si model udržuje jak zobecnění subjektu, tak neurovědní integritu.
Aktuální implementace zpracovávají statické snímky fMRI, což omezuje schopnost systému zachytit progresi myšlenky v průběhu času. Budoucí pokroky mohou zahrnovat začlenění technik časového modelování, jako jsou opakující se architektury nebo mechanismy sekvenční pozornosti, aby se analyzovaly, jak se vyvíjejí vzorce mozkové aktivity.
Mindllm poskytuje interpretovatelné vhledy do toho, jak se mozková aktivita promítá do sémantických informací a posiluje jeho roli jako nástroje pro neurovědecký výzkum. Rozšíření do dekódování fMRI v reálném čase by mohlo otevřít nové možnosti pro neuroprostetiku, sledování mentálního stavu a rozhraní mozkového počítače.
Více informací:
Weikang Qiu a kol., Mindllm: subjekt-agnostický a všestranný model pro dekódování fMRI-k textu, arxiv (2025). Doi: 10,48550/arxiv.2502.15786
© 2025 Science X Network
Citace: Přímý překlad zobrazování mozku do textu s MindllM (2025, 28. února) získaný 28. února 2025 z https://medicalxpress.com/news/2025-02-rain-imaging-text-mindllm.html
Tento dokument podléhá autorským právům. Kromě jakéhokoli spravedlivého jednání za účelem soukromého studia nebo výzkumu nemůže být žádná část bez písemného povolení reprodukována. Obsah je poskytován pouze pro informační účely.