AI by si brzy mohla myslet způsobem, kterým ani nerozumíme, a zvyšuje riziko nesprávného vyrovnání – vědci na Google, Meta a OpenAI varují

Vědci za některými z nejpokročilejších Umělá inteligence (Ai) Na planetě varovaly, že systémy, které pomohli vytvořit, by mohly představovat riziko pro lidstvo.
Vědci, kteří pracují ve společnostech, včetně Google Deepmind, OpenAI, Meta, Anthropic a další, tvrdí, že nedostatek dohledu nad odůvodněním a rozhodovacím procesům AI by mohl znamenat, že nám chybí známky maligního chování.
V nové studii, zveřejněné 15. července arxiv Server PRISTRITT (který nebyl recenzován), vědci zdůrazňují řetězce myšlení (COT)-kroky, které velké jazykové modely (LLM) podniknou při vypracování složitých problémů. Modely AI používají COTS k rozdělení pokročilých dotazů na střední, logické kroky, které jsou vyjádřeny v přirozeném jazyce.
Autoři studie tvrdí, že sledování každého kroku v procesu by mohlo být klíčovou vrstvou pro stanovení a udržování bezpečnosti AI.
Sledování tohoto procesu postýlky může vědcům pomoci pochopit, jak se LLM přijímá rozhodnutí, a co je důležitější, proč se nesprávně vyrovnávají zájmy lidstva. Pomáhá také určit, proč dávají výstupy na základě údajů, které jsou nepravdivé nebo neexistují, nebo proč nás uvádějí v omyl.
Při sledování tohoto procesu uvažování však existuje několik omezení, což znamená, že takové chování by mohlo potenciálně projít trhlinami.
Související: AI se nyní může replikovat – milník, který vyděsil odborníky
„Systémy AI, které„ myslí “v lidském jazyce, nabízejí jedinečnou příležitost pro bezpečnost AI,“ uvedli ve studii vědci. „Můžeme sledovat jejich řetězy myšlení, aby se záměr choval. Stejně jako všechny ostatní známé metody dohledu nad AI, monitorování postýlky je nedokonalé a umožňuje některému špatnému chování bez povšimnutí.“
Vědci varovali, že odůvodnění ne vždy dochází, takže ji nelze vždy monitorovat, a některé zdůvodnění dochází, aniž by o tom lidé věděli. Mohlo by také existovat zdůvodnění, že lidské operátoři nerozumí.
Důrazně pozor na systémy AI
Jedním z problémů je, že konvenční bez důchodních modelů, jako jsou K-Means nebo DBSCAN-používají sofistikované porovnávání vzorů generované z masivních datových sad, takže se na COTS vůbec nespoléhají. Novější modely uvažování, jako jsou Google Gemini nebo Chatgpt, jsou mezitím schopny rozdělit problémy na střední kroky k generování řešení – ale vždy to nemusí dělat, aby získaly odpověď. Neexistuje také žádná záruka, že modely budou pro lidské uživatele viditelné, i když tyto kroky podniknou, vědci poznamenali.
„Externalizovaná vlastnost uvažování nezaručuje monitorovatelnost – uvádí pouze to, že v řetězci myšlenky se objeví některé zdůvodnění, ale může existovat další relevantní zdůvodnění, které tomu tak není,“ uvedli vědci. „Je tedy možné, že i u tvrdých úkolů obsahuje řetězec myšlení pouze benigní zdůvodnění, zatímco obviňující zdůvodnění je skryto.“ Dalším problémem je, že postýlky nemusí být lidmi srozumitelné, uvedli vědci. „
Nové, silnější LLM se mohou vyvinout do bodu, kdy COT nejsou tak nutné. Budoucí modely mohou také být schopny zjistit, že jejich postýlka je pod dohledem, a skrývat špatné chování.
Aby se tomu zabránilo, navrhli autoři různá opatření k implementaci a posílení monitorování COT a zlepšení transparentnosti AI. Patří mezi ně použití jiných modelů k vyhodnocení procesů LLMS COT a dokonce jednat v kontradiktoriální roli proti modelu, který se snaží skrýt nesprávně zarovnané chování. Autoři v článku nespecifikují, jak by zajistili, že by se monitorovací modely zabránily také nesprávně vyrovnané.
Rovněž navrhli, že vývojáři AI nadále upřesňují a standardizují metody monitorování COT, zahrnují výsledky monitorování a iniciativy v systémových kartách LLMS (v podstatě v příručce modelu) a zvažují vliv nových metod školení na monitorovatelnost.
„Monitorování COT představuje cenný doplněk k bezpečnostním opatřením pro Frontier AI a nabízí vzácný pohled na to, jak se agenti AI rozhodují,“ uvedli vědci ve studii. „Přesto neexistuje žádná záruka, že současný stupeň viditelnosti bude přetrvávat. Doporučujeme vývojářům výzkumné komunity a hraniční AI, aby nejlépe využili monitovatelnost COT a studovali, jak ji lze zachovat.“



