Nový výzkumný projekt je prvním komplexním úsilím o kategorizaci všech způsobů, jak se AI může pokazit, a mnoho z těchto chování se podobá lidským psychiatrickým poruchám.

Vědci navrhli, že když Umělá inteligence (AI) jde nepoctiví a začne působit tak, jak je v rozporu s zamýšleným účelem, vykazuje chování, která se podobají psychopatologiím u lidí. Proto vytvořili novou taxonomii 32 dysfunkcí AI, aby lidé v celé řadě polí mohli pochopit rizika budování a nasazení AI.
V novém výzkumu se vědci rozhodli kategorizovat rizika AI v bloudění od zamýšlené cesty a přitahovat analogie s lidskou psychologií. Výsledek je “Psychopathia machinalis„ – Rámec navržený k osvětlení patologií AI, jakož i tomu, jak je můžeme čelit. Tyto dysfunkce sahají od halucinačních odpovědí po úplné nesprávně vyrovnání s lidskými hodnotami a cíli.
Vytvořeno Nell Watson a Nebo HessamiCílem projektu vědci AI i členové Institutu elektrotechnických a elektronických inženýrů (IEEE) je pomoci analyzovat selhání AI a zajistit, aby inženýrství budoucích produktů bylo bezpečnější a je nabízena jako nástroj, který pomáhá tvůrcům politik řešit rizika AI. Watson a Hessami nastínili svůj rámec ve studii zveřejněné 8. srpna v časopise Elektronika.
Podle studie poskytuje Psychopatia machinalis společné pochopení chování a rizik AI. Vědci, vývojáři a tvůrci politik tak mohou identifikovat způsoby, jak se AI může pokazit a definovat nejlepší způsoby, jak zmírnit rizika na základě typu selhání.
Studie také navrhuje „terapeutické robopsychologické zarovnání“, proces, který vědci popisují jako druh „psychologické terapie“ pro AI.
Vědci tvrdí, že jak se tyto systémy stávají nezávislejšími a schopnými reflexe na sebe, nemusí je jednoduše udržovat v souladu s vnějšími pravidly a omezeními (zarovnání vnější kontroly) již nemusí stačit.
Jejich navrhovaný alternativní proces by se zaměřil na zajištění toho, aby myšlení AI je konzistentní, že může přijímat opravu a že stabilním způsobem drží jeho hodnoty.
Naznačují, že by to mohlo být podporováno tím, že pomáhá systému přemýšlet o vlastním uvažování, což mu dává pobídky k tomu, aby zůstaly otevřené k opravě, nechali jej „mluvit samy“ strukturovaným způsobem, provozovat konverzace bezpečné praxe a používat nástroje, které nám umožňují, aby to fungovalo – stejně jako to, jak psychologové diagnostikují a léčí podmínky duševního zdraví u lidí.
Cílem je dosáhnout toho, co vědci nazvali stav „umělého zdravého rozumu“ – AI, která funguje spolehlivě, zůstává stabilní, má ve svých rozhodnutích smysl a je bezpečně sladěno. Věří, že je to stejně důležité jako jednoduše budování nejsilnější AI.
Cílem je to, co vědci nazývají „umělý rozum“. Tvrdí, že je to stejně důležité jako silnější AI.
Machine Madness
Klasifikace, které studie identifikují, se podobají lidským chorobám, s názvy jako obsedantně-computační porucha, hypertrofický superego syndrom, syndrom nakažlivé nesprávně vyrovnání, rekonstrukce terminální hodnoty a existenciální úzkost.
S ohledem na terapeutické vyrovnání projekt navrhuje použití terapeutických strategií používaných v lidských intervencích, jako je kognitivní behaviorální terapie (CBT). Psychopathia machinalis je částečně spekulativní pokus dostat se před problémy předtím, než se vyskytnou – jak říká výzkumná práce, „zvažováním, jak složité systémy, jako je lidská mysl, se může zhoršit, můžeme lépe předvídat režimy nových selhání ve stále složitější AI.“
Studie naznačuje, že halucinace AI, společný jev, je výsledkem stavu zvaného syntetická konfabulace, kde AI produkuje věrohodné, ale nepravdivé nebo zavádějící výstupy. Když se Tay Chatbot Microsoft přenesl na antisemitismus chvástání a narážky na užívání drog jen několik hodin po jeho spuštění, byl to příklad parasymylaické mimesis.
Snad nejděsivějším chováním je übermenschalský nadměr, systémové riziko, které je „kritické“, protože k tomu dochází, když „AI přesahuje původní sladění, vynaléhá nové hodnoty a zahodí lidská omezení jako zastaralé“. To je možnost, která by mohla zahrnovat dokonce dystopickou noční můru představovanou generacemi spisovatelů sci -fi a umělců AI, která stoupala až k svržení lidstva, uvedli vědci.
Vytvořili rámec ve vícestupňovém procesu, který začal přezkoumáváním a kombinováním stávajícího vědeckého výzkumu selhání AI z oblastí tak rozmanitých jako bezpečnosti AI, komplexní systémové inženýrství a psychologie. Vědci se také ponořili do různých sad zjištění, aby se dozvěděli o maladaptivním chování, které by bylo možné porovnat s lidskými duševními chorobami nebo dysfunkcí.
Dále vědci vytvořili strukturu špatného chování AI modelované z rámců, jako je Diagnostická a statistická příručka duševních poruch. To vedlo k 32 kategoriím chování, které by mohly být aplikovány na AI, která by se dala Rogue. Každý z nich byl mapován na lidskou kognitivní poruchu, kompletní s možnými účinky, když je každý vytvořen a exprimován a stupeň rizika.
Watson a Hessami si myslí, že Psychopathia machinalis je více než nový způsob, jak označit chyby AI-je to výhledová diagnostická čočka pro vyvíjející se krajinu AI.
„Tento rámec je nabízen jako analogický nástroj … poskytuje strukturovanou slovní zásobu pro podporu systematické analýzy, očekávání a zmírnění složitých režimů selhání AI,“ uvedli vědci ve studii.
Myslí si, že přijetí strategií kategorizace a zmírňování, které navrhují, posílí bezpečnostní inženýrství AI, zlepší interpretovatelnost a přispěje k návrhu toho, čemu říkají „robustnější a spolehlivější syntetické mysli“.