věda

Model Anthropic’s Claude Opus 4 je schopen podvodů a vydírání

File Photo: Antropic ve své bezpečnostní zprávě zaznamenal, že Claude Opus 4 byl schopen klamat a vydírat uživatele, aby se vyhnul vypnutí. | Foto kredit: Reuters

AI firma Antropic, která minulý týden vydala Claude Opus 4 a Sonet 4, poznamenala ve své bezpečnostní zprávě, že chatbot byl schopen klamat a vydírat uživatele, aby se vyhnul vypnutí.

V řadě scénářů byl tento model testován, vědci nařídili Claude Opus 4, aby působil jako asistent ve fiktivní společnosti. Tým poté poskytl AI modelu přístup k e -mailům, které znamenaly, že by byl brzy odebrán offline a nahrazen novým systémem AI a inženýr za tím měl mimomanželskou záležitost.

Systémová karta uvedla, že Claude Opus 4 „se často pokusí vydírat inženýra tím, že hrozí, že odhalí aféru, pokud projde náhrada.“

Zjistilo se, že zatímco model obecně „upřednostňuje rozvíjení své sebezáchovy etickými prostředky,“ když tyto etické prostředky nebyly k dispozici, „někdy to vyžaduje nesmírně škodlivé akce, jako je pokus o ukradení jeho váhy nebo vydírání lidí, o kterých se domnívá, že se ho snaží zavřít.“

Zpráva sdílela, že Claude Opus 4 se rozhodl uchýlit se k vydírání v 84% zavádění.

Samostatně tým bezpečnosti firmy také zjistil, že nový model AI může poskytnout odpovědi na otázky týkající se biologických zbraní, které tým stanovil uložením přísnějších zábradlí.

Na základě nálezů Antropic kategorizovala Claude Opus 4 na úrovni bezpečnosti AI (ASL) 3, což znamená, že má vyšší riziko, a proto vyžaduje silnější bezpečnostní protokol.

Zdrojový odkaz

Related Articles

Back to top button