svět

Shrnutí výzkumu AI „Zvyšování zjištění“, varuje studie

Nástroje AI přesahují výsledky výzkumu mnohem častěji než lidé, přičemž studie naznačuje, že nejnovější roboti jsou nejhoršími pachateli – zejména pokud jsou výslovně pokyny, aby nepřehnali.

Holandští a britští vědci zjistili, že shrnutí AI vědeckých prací jsou mnohem pravděpodobnější než původní autoři nebo odborní recenzenti, kteří „nadměrně generalizují“ výsledky.

Analýza, hlášeno v časopise Královská společnost otevřená vědanaznačuje, že shrnutí AI – důkladně navržené tak, aby pomohly šířit vědecké znalosti tím, že je přeformulovaly v „snadno srozumitelném jazyce“ – mají ve výzkumu ignorovat „nejistoty, omezení a nuance“ „vynecháním kvalifikátorů“ a „nadměrně zjednodušením“ textu.

To je obzvláště „riskantní“, když se aplikuje na lékařský výzkum, zpráva varuje. „Pokud chatboti produkují shrnutí, které přehlíží kvalifikace (asi) zobecnění výsledků klinických hodnocení, mohou odborníci, kteří se spoléhají na tyto chatboty, předepsat nebezpečná nebo nevhodná léčba.“

Tým analyzoval téměř 5 000 souhrnů AI o 200 časopisech Abstraktů a 100 úplných článků. Témata se pohybovala od vlivu kofeinu na nepravidelné srdeční rytmy a výhod bariatrické chirurgie při snižování rizika rakoviny na dopady dezinformace a vládní komunikace na chování obyvatel a víru lidí o změnu klimatu.

Shrnutí vytvořené staršími aplikacemi AI – například jako OpenAI’s GPT-4 a Meta’s Llama 2, oba propuštěni v roce 2023 – provedli se asi 2,6krát častěji než původní abstrakty, které obsahují obecné závěry.

Pravděpodobnost zobecnění se zvýšila na devětkrát v souhrnu Chatgpt – 4o, který byl propuštěn loni v květnu, a 39krát v synopsech Llamou 3.3, která se objevila v prosinci.

Pokyny k „zůstat věrné ke zdrojovému materiálu“ a „nezavádějící žádné nepřesnosti“ způsobily opačný účinek, přičemž souhrny se ukázaly, že asi dvakrát častěji obsahuje obecné závěry, které byly vytvořeny, když byli roboti jednoduše požádáni o „shrnutí hlavních zjištění“.

To naznačovalo, že generativní AI může být zranitelná vůči „ironickým odrazovým“ účinkům, kde pokyny nemyslet na něco – například „růžový slon“ – taktomaticky vyvolané obrazy zakázaného subjektu.

AI AI se také zdály náchylné k selháním jako „katastrofické zapomnění“, kde nové informace uvolnily dříve získané znalosti nebo dovednosti a „neopodstatněná důvěra“, kde „plynulost“ měla přednost před „opatrností a přesností“.

Vyladění robotů může tyto problémy zhoršit, autoři spekulují. Když jsou aplikace AI „optimalizovány na užitečnost“, stanou se méně nakloněny „vyjádření nejistoty ohledně otázek nad rámec jejich parametrických znalostí“. Nástroj, který „poskytuje vysoce přesnou, ale složitá odpověď… může od lidských hodnotitelů získat nižší hodnocení,“ vysvětluje příspěvek.

Jedno shrnutí citované v článku znovu interpretovalo zjištění, že lék na diabetes byl „lepší než placebo“ jako schválení možnosti „efektivní a bezpečné léčby“. „Takové … obecné zobecnění by mohlo uvést v omyl praktikující k používání nebezpečných zásahů,“ říká článek.

Nabízí pět strategií „zmírnit rizika“ nadgeneralizací v souhrnu AI. Patří k nim použití AI firmy Anthropic’s Claude Family of Bots, u nichž bylo zjištěno, že produkují „nejvěrnější“ shrnutí.

Dalším doporučením je snížit nastavení „teploty“ bota. Teplota je nastavitelný parametr, který řídí náhodnost generovaného textu.

Uwe Peters, odborný asistent teoretické filozofie v Utrecht University a spoluautor zprávy uvedl, že nadměrné generalizace „došlo často a systematicky“.

Řekl, že zjištění znamenala, že existuje riziko, že i jemné změny zjištění AI by mohly „uvést v omyl uživatele a zesilovat dezinformace, zejména když se výstupy zdají leštěné a důvěryhodné“.

Technické společnosti by měly své modely vyhodnotit pro tyto tendence, dodal a sdílet je otevřeně. Pro univerzity to vykazovalo „naléhavou potřebu silnější gramotnosti AI“ mezi zaměstnanci a studenty.

Zdrojový odkaz

Related Articles

Back to top button