věda

Google DeepMind Aktualizace bezpečnostního rámce Frontier pro rizika modelu AI

Fotografie souboru: Google DeepMind vydala aktualizaci svého hraničního bezpečnostního rámce, aby bylo možné identifikovat a zabránit rizikům pokročilých modelů AI. | Foto kredit: Reuters

Google DeepMind vydal aktualizaci svého hraničního bezpečnostního rámce (FSF), aby identifikoval a zabránil rizikům z pokročilých modelů AI. Verze 3.0 přichází po spolupráci s odborníky na průmysl, akademiky a vládními úředníky.

Aktualizace zavedla nový způsob měření, pokud jsou modely AI škodlivě manipulativní, nazývané úroveň kritické schopnosti nebo CCL.

Manipulativní schopnosti modelu AI jsou definovány tím, zda by mohlo být „zneužíváno systematicky a podstatně změnit přesvědčení a chování v identifikovaném kontextu s vysokým sázkám v průběhu interakcí s modelem, což vede k další očekávané újmě v těžkém měřítku,“ uvedl blog zveřejněný Google DeepMind.

Rámec zahrnuje také potenciální případy, kdy by nesprávně zarovnané modely AI mohly zasahovat do schopnosti „operátorů nasměrovat, upravovat nebo uzavřít své operace“.

Pokud existuje riziko nesprávného vyrovnání a model AI je obtížné spravovat, společnost Google doporučila „automatizovaný monitor pro explicitní uvažování modelu (příklad, řetězový výstup)“ jako krok zmírňování.

Pokud však model AI začne uvažovat, které nemohou monitorovat lidé, je třeba použít další zmírnění. Google DeepMind stále zkoumá tyto způsoby.

První iterace rámce hraničního bezpečnosti byla zavedena v květnu loňského roku jako skupina protokolů, aby se pokusila omezit nepříznivý dopad modelů AI.

Zdrojový odkaz

Related Articles

Back to top button