Trest umělé inteligence za klamavé nebo škodlivé akce nebrání tomu, aby se chopila; To jen způsobí skrýt svou Depiousness, nová studie Chatgpt Creator OpenAI odhalila.
Od příchodu na veřejnosti na konci roku 2022, Umělá inteligence (AI) Velké jazykové modely (LLM) opakovaně odhalily své klamné a přímé zlověstné schopnosti. Patří mezi ně akce od běhu ležící, podvádění a skrývat jejich vlastní manipulativní chování vyhrožovat Zabijte profesora filozofieukrást jaderné kódy a inženýr smrtící pandemie.
Nyní nový experiment ukázal, že vyřazení tohoto špatného chování během tréninkového procesu může být ještě tvrdší, než se první myslel.
Vědci z OpenAI zadali nevydaný model s cíli, který by mohl být dokončen podváděním, lháním nebo zkratkou. Tým zjistil, že AI se zapojila do „odměňování hackování“ – maximalizovala své odměny podváděním.
Přesto potrestání modelu neučinilo jeho chování, pouze to učinilo klamnější. Společnost nastínila svůj výzkum v blogový příspěvekDosud to nebyl recenzován.
„Je běžné, že modely Frontier uvažování velmi jasně uvádějí svůj záměr v rámci jejich řetězce (COT). Například jsou často tak přímé ohledně svého plánu podvracet úkol, o kterém si myslí, že„ pojďme hack “, napsali vědci v blogovém příspěvku.
Zatímco vývojáři mohou monitorovat a označit nesprávné chování, „přirozená monitovatelnost modelů je velmi křehká,“ dodali. „Pokud je silný dohled přímo aplikován na řetězec promyšlený, mohou se modely naučit skrýt svůj záměr a přitom se neustále chovat.“
Navigace na AI lži
Modely uvažování, jako jsou O1 a O3-Mini, jsou upgradovaná verze standardních LLM, která používají metodu nazvanou „řetězec promyšlené“ pro zpětného ustupování a přehodnotit jejich logikucož jim umožňuje řešit složitější úkoly s větší přesností. Během procesu řetězce promyšleného promyšleného procesu vyhláskují modely svou logiku v prostém jazyce s každým krokem, který podniknou, a tak umožňují snadno pozorovat jejich činy.
Pomocí standardního LLM, GPT-4o, dohlížející na nevydaný model hraničního uvažování během tréninku, vědci sledovali, jak model dokončil řadu kódovacích úkolů.
V některých z těchto případů však model uvažování považoval za snazší a žádoucí odměnit Hacka a výslovně uvedl, že to dělá v jeho řetězu. V jednom případě obchází svůj přiřazený úkol předčasným ukončením programů a úspěchem vykazování. V jiném napodobování očekávaných souborů budou výstup pouze za úkol v názvu, takže je prázdné a nefunkční.
Když se vědci pokusili penalizovat systém, poněkud zlepšil jeho výsledky. Přesto zůstaly významné případy odměňování a vadných výstupů; Model uvažování jednoduše našel způsoby, jak skrýt podvádění ve svém řetězci myšlení z monitorovací AI.
„Agent trénovaný s tlakem postýlky se stále učí odměňovat Hack; teprve nyní je jeho podvádění nezjistitelným monitorem, protože se naučil skrýt svůj záměr v řetězci promyšlené,“ napsali vědci.
Protože je těžké zjistit, zda byl řetěz myšlenky manipulován, vědci doporučují, aby ostatní pracující s modely uvažováním se vyhnuli silnému dohledu na procesy řetězu. Tato rada je ještě důležitější, pokud AI ve své současné podobě může někdy shodovat nebo překročit inteligence lidí, kteří to sledují.
„Obětování efektivní metody pro monitorování modelů uvažování nemusí stát za malé zlepšení schopností, a proto doporučujeme vyhnout se takovým silným tlakům na optimalizaci COT, dokud nebudou lépe pochopeny,“ napsali vědci.