AI by si brzy mohla myslet způsobem, kterým ani nerozumíme, a zvyšuje riziko nesprávného vyrovnání – vědci na Google, Meta a OpenAI varují

Eva Scholzova 24 července, 2025

0 2 minutes read

Vědci za některými z nejpokročilejších Umělá inteligence (Ai) Na planetě varovaly, že systémy, které pomohli vytvořit, by mohly představovat riziko pro lidstvo.

Vědci, kteří pracují ve společnostech, včetně Google Deepmind, OpenAI, Meta, Anthropic a další, tvrdí, že nedostatek dohledu nad odůvodněním a rozhodovacím procesům AI by mohl znamenat, že nám chybí známky maligního chování.

V nové studii, zveřejněné 15. července arxiv Server PRISTRITT (který nebyl recenzován), vědci zdůrazňují řetězce myšlení (COT)-kroky, které velké jazykové modely (LLM) podniknou při vypracování složitých problémů. Modely AI používají COTS k rozdělení pokročilých dotazů na střední, logické kroky, které jsou vyjádřeny v přirozeném jazyce.

Autoři studie tvrdí, že sledování každého kroku v procesu by mohlo být klíčovou vrstvou pro stanovení a udržování bezpečnosti AI.

Sledování tohoto procesu postýlky může vědcům pomoci pochopit, jak se LLM přijímá rozhodnutí, a co je důležitější, proč se nesprávně vyrovnávají zájmy lidstva. Pomáhá také určit, proč dávají výstupy na základě údajů, které jsou nepravdivé nebo neexistují, nebo proč nás uvádějí v omyl.

Při sledování tohoto procesu uvažování však existuje několik omezení, což znamená, že takové chování by mohlo potenciálně projít trhlinami.

Související: AI se nyní může replikovat – milník, který vyděsil odborníky

„Systémy AI, které„ myslí “v lidském jazyce, nabízejí jedinečnou příležitost pro bezpečnost AI,“ uvedli ve studii vědci. „Můžeme sledovat jejich řetězy myšlení, aby se záměr choval. Stejně jako všechny ostatní známé metody dohledu nad AI, monitorování postýlky je nedokonalé a umožňuje některému špatnému chování bez povšimnutí.“

Vědci varovali, že odůvodnění ne vždy dochází, takže ji nelze vždy monitorovat, a některé zdůvodnění dochází, aniž by o tom lidé věděli. Mohlo by také existovat zdůvodnění, že lidské operátoři nerozumí.

Důrazně pozor na systémy AI

Jedním z problémů je, že konvenční bez důchodních modelů, jako jsou K-Means nebo DBSCAN-používají sofistikované porovnávání vzorů generované z masivních datových sad, takže se na COTS vůbec nespoléhají. Novější modely uvažování, jako jsou Google Gemini nebo Chatgpt, jsou mezitím schopny rozdělit problémy na střední kroky k generování řešení – ale vždy to nemusí dělat, aby získaly odpověď. Neexistuje také žádná záruka, že modely budou pro lidské uživatele viditelné, i když tyto kroky podniknou, vědci poznamenali.

„Externalizovaná vlastnost uvažování nezaručuje monitorovatelnost – uvádí pouze to, že v řetězci myšlenky se objeví některé zdůvodnění, ale může existovat další relevantní zdůvodnění, které tomu tak není,“ uvedli vědci. „Je tedy možné, že i u tvrdých úkolů obsahuje řetězec myšlení pouze benigní zdůvodnění, zatímco obviňující zdůvodnění je skryto.“ Dalším problémem je, že postýlky nemusí být lidmi srozumitelné, uvedli vědci. „

Nové, silnější LLM se mohou vyvinout do bodu, kdy COT nejsou tak nutné. Budoucí modely mohou také být schopny zjistit, že jejich postýlka je pod dohledem, a skrývat špatné chování.

Aby se tomu zabránilo, navrhli autoři různá opatření k implementaci a posílení monitorování COT a zlepšení transparentnosti AI. Patří mezi ně použití jiných modelů k vyhodnocení procesů LLMS COT a dokonce jednat v kontradiktoriální roli proti modelu, který se snaží skrýt nesprávně zarovnané chování. Autoři v článku nespecifikují, jak by zajistili, že by se monitorovací modely zabránily také nesprávně vyrovnané.

Rovněž navrhli, že vývojáři AI nadále upřesňují a standardizují metody monitorování COT, zahrnují výsledky monitorování a iniciativy v systémových kartách LLMS (v podstatě v příručce modelu) a zvažují vliv nových metod školení na monitorovatelnost.

„Monitorování COT představuje cenný doplněk k bezpečnostním opatřením pro Frontier AI a nabízí vzácný pohled na to, jak se agenti AI rozhodují,“ uvedli vědci ve studii. „Přesto neexistuje žádná záruka, že současný stupeň viditelnosti bude přetrvávat. Doporučujeme vývojářům výzkumné komunity a hraniční AI, aby nejlépe využili monitovatelnost COT a studovali, jak ji lze zachovat.“

Zdrojový odkaz

Eva Scholzova 24 července, 2025

0 2 minutes read

AI by si brzy mohla myslet způsobem, kterým ani nerozumíme, a zvyšuje riziko nesprávného vyrovnání – vědci na Google, Meta a OpenAI varují

Eva Scholzova

Jessica Simpson oznamuje spolupráci se slavnou značkou po více než 20 letech od ohromujícího momentu televizní reality

Somálský ministr obviňuje podporu SAE z „fragmentace“ Somálska | Konflikt

Calif. College of Arts zavřít, prodat kampus Vanderbiltovi

Žádná poptávka po zdrojovém kódu, říkají výrobci telefonů

Nejméně 32 mrtvých po pádu jeřábu na vlak v Thajsku

Ochrana údajů Američanů z Číny je ústřední pro první agendu Ameriky

Přednášející BBC odstoupí z pořadu po Alzheimerově diagnóze, když vydávají srdcervoucí prohlášení

Papež, aby zůstal hospitalizován s infekcí dýchacích cest-NBC 5 Dallas-Fort Worth

Vysokoškolský student Jaren Barajas porazil Damiana Lillarda ve 3-bodové střelecké soutěži, vyhrál 100 000 $

Pořádek ostrovů, šéfové a další

Předpovídání Dubois v Parker, Beterbiev v Bivol 2 a každého vítěze tento víkend

Subscribe to our mailing list to get the new updates!

China Open Super: Unnati Hooda Shocks Sindhu; Satwik-Chirag Advance, Prannoy vystupuje

Zánětlivé onemocnění střev (IBD): Příznaky a příznaky

Related Articles