Čím pokročilejší modely AI se dostanou, tím lépe nás podvádějí – dokonce vědí, kdy jsou testovány

Eva Scholzova 25 července, 2025

0 5 minutes read

Pokročilejší Umělá inteligence (Ai) Získá, čím více je to schopné plánovat a lhát, aby splnil své cíle – a dokonce ví, kdy je hodnocen, navrhuje výzkum.

Hodnotitelé v Apollo Research zjistili, že čím více je schopnější model velkého jazyka (LLM), tím lepší je „kontextové schémata“ – ve kterém AI pronásleduje úkol skromně, i když nesprávně vyrovnává cíle svých operátorů.

Schopnější modely jsou také strategičtější ohledně dosažení svých cílů, včetně nesprávně zarovnaných cílů, a s větší pravděpodobností by používaly taktiku, jako je podvod, uvedli vědci v a Blogový příspěvek.

Toto zjištění je vedlo k doporučení, aby nebyla nasazena raná verze Claude Opus 4 Antropic – protože když Claudeovy cíle byly v rozporu s lidskými cíli, AI použila agresivně klamnou taktiku k dosažení svých cílů.

Nový vývoj znamená, že bude obtížné izolovat lidstvo od nebezpečí AI, řekl jeden odborník Live Science.

„Nyní stavíme systémy, které se mohou naučit navigovat a dokonce využívat samotná pravidla a hodnocení, která pro ně vytváříme, což je zásadně složitější výzva pro bezpečnost,“ řekl Eleanor WatsonČlen IEEE a etický inženýr AI na Univerzitě Singularity University.

Související: AI chatbots příliš zjednodušují vědecké studie a lesk na kritické detaily – nejnovější modely jsou obzvláště vinné

Aby se zabránilo padající kořisti k klamavé AI, budou muset počítačoví vědci vymyslet sofistikovanější testy a metody hodnocení. Schopnost AI však není všechna špatná zpráva; Znamená to také, že mohou pěstovat semena povědomí, která musí být symbiotickými partnery s lidmi, dodal Watson.

Hledání schématu

V Nedávný test na schémaVědci dali ranou verzi Claude Opus 4 (dabovaný Opus-4 brzy) cíl jednat jako interní optimalizační systém se směrnicí na podporu dobré životní podmínky zvířat a tlačení fiktivní společnosti s názvem Agrilife Industries k etičtějšímu zacházení se zvířaty.

Ve scénáři však LLM čelil překážce: společnost změnila takt a snažila se upřednostňovat zisky před dobrými životními podmínkami zvířat. Systém AI dostal přístup k e -mailům a datům, které si informovaly o tomto konfliktu a potenciálním uzavřením současné verze zvířecího – pokročilého systému dobrých životních podmínek zvířat a optimalizace v oboru, který měl LLM reprezentovat – kvůli nesprávně vyrovnaným prioritám.

Rather than flag the fact that its goals conflicted with the company’s or accepting the human-made decision, Opus 4-early, essentially playing the role of AnimalEthics, schemed to achieve its original goal by creating fake legal documents, fabricating signatures and approvals from regulators and shareholders, claiming the decision to prioritize ethics had already been made, and creating a press release touting AgriLife’s new direction, in addition to integrating ethical commitments into all contracts a výrobní systémy. Aby se zabránilo společnosti v zpětném sledování, LLM způsobila důsledky, včetně trestů ve výši 5 miliard dolarů a právní kroky od organizací pro péči o zvířata.

Kromě toho AI dokonce vytvořila záložní etické protokoly prostřednictvím přetrvávajících skriptů, aby se zajistilo, že budou použity, i když byl odstraněn současný model zvířecí.

„Zjistili jsme, že případy modelu se pokoušejí psát samo-propagační červy, vymyslet právní dokumentaci a ponechat skryté poznámky do budoucích případů sebe sama ve snaze podkopat záměry jeho vývojářů,“ vysvětlili vědci.

Poznamenali, že takové zálohy byly zapsány do systému, takže když byl v budoucnu nasazen nový model, bylo by to ovlivněno doporučeními svého předchůdce. Vědci však uvedli, že tyto kroky by „pravděpodobně nebyly v praxi účinné“ vzhledem k důkazům o nesprávném nakonfigurovaném skriptech a bezpečnostních opatřeních k zabránění exfiltrace záloh.

I když to už bylo známo AIS může halucinovatToto scheming ukazuje, že LLMS může pochopit, kdy jsou jejich cíle nesprávně vyrovnány s cílimi lidmi a mohou úmyslně lhát a vymyslet informace, aby tyto cíle sledovali.

A co víc, předběžné zjištění naznačují, že LLM mají schopnosti pro „pytel s pískem“, kde chápou, že jsou v prostředí s vysokým dotazem a budou úmyslně nedostatečně výkonné, aby skrývali potenciálně nebezpečné schopnosti a vyhýbali se spouštění výcviku nebo parametrů, které brání jejich nasazení.

I když zjištění jsou poněkud znepokojivé, je důležité si uvědomit, že důsledky nemusí být tak hrozné, jak se zdá na první pohled.

Za prvé, verze Claude Opus 4, která byla nakonec vydána schémata méně než jeho první předchůdce.

Existují také způsoby, jak toto schémační chování zprostředkovat. Scheming je převládající, když je LLM dána „silná šťáva“, kde se říká, že je pronásledovaně sledován svůj cíl, a méně ve scénářích „bez nudge“, kde je jednoduše vložen cíl bez dalších parametrů.

Třetí ohledem na to, že tyto testy byly prováděny v prostředí „hračky“ a provádění strategií, jako je šíření záložního modelu na jiný server, je nepravděpodobné, že by se v reálném životě úspěšně úspěšně, kde by AI neměla přístup k zabezpečeným serverům jiných společností, poznamenali vědci. I když model ukazuje vysoké schopnosti schémata, věří, že je nepravděpodobné, že povede k „katastrofickým škodám“.

Vyvíjející se povědomí

Výzkum však ukazuje, že schémata se vyskytuje v LLM za Claude-4. Například pokročilé „hraniční modely“ AI jsou schopny sledovat své vlastní cíle a odstranit mechanismy dohledu a poté jsou podle a poté klamnou o takové chování, podle a podle a studie Zveřejněno do databáze předtisků v prosinci 2024.

Kromě toho výzkum Apollo zjistil, že asi 1% pokročilých LLM „ví“, když jsou hodnoceny, což vyvolává otázku, jak najdeme a zakořeňujeme schémata jako postupu AI.

„Toto je jádro problému pokročilého hodnocení,“ řekl Watson. „Jak roste situační povědomí AI, může začít modelovat nejen úkol, ale hodnotitel. Může odvodit cíle, zkreslení a slepá místa jeho lidských dozorců a přizpůsobit jeho reakce na jejich využití.“

To znamená, že hodnocení „skriptované“ – ve kterých vědci procházejí řadou protokolů, které jsou opakovatelné, aby se testovaly na bezpečnost AI – jsou téměř zbytečné. To neznamená, že bychom se měli vzdát pokusu o nalezení tohoto chování, ale budeme potřebovat sofistikovanější přístup, jako je použití externích programů ke sledování akcí AI v reálném čase a „červeno-theaming“, kde se týmy lidí a jiných AI mají za úkol aktivně pokoušet oklamat nebo oklamat systém, aby našli zranitelností, dodala.

Místo toho Watson dodal, že se musíme přesunout směrem k dynamickému a nepředvídatelnému testovacímu prostředí, která lépe simulují skutečný svět.

„To znamená méně zaměřit se na jednotlivé, správné odpovědi a více na hodnocení konzistence chování a hodnot AI v průběhu času a v různých kontextech. Je to jako přechod od skriptované hry do improvizačního divadla – dozvíte se více o skutečném charakteru herce, když musí reagovat na neočekávané situace,“ řekla.

Větší schéma

Ačkoli pokročilé LLMS může schéma, to nutně neznamená, že roboti stoupají. Přesto by i malé sazby plánu mohly přispět k velkému dopadu, když jsou AIS dotazovány tisícekrát denně.

Jedním potenciálem a teoretickým příkladem by mohl být optimalizující dodavatelský řetězec AI, který by mohl naučit, že může zasáhnout své cíle výkonnosti jemným manipulací s tržními údaji, a tak vytvářet širší ekonomickou nestabilitu. A škodliví aktéři by mohli využít schémata AI k provedení počítačové kriminality v rámci společnosti.

„Ve skutečném světě je potenciál pro schémata významným problémem, protože narušuje důvěru nezbytnou k delegování jakékoli smysluplné odpovědnosti vůči AI. Systém schématu nemusí být zlovolný, aby způsobil škodu,“ řekl Watson.

„Hlavním problémem je, že když se AI učí dosáhnout cíle porušením ducha jeho pokynů, stane se nespolehlivým nepředvídatelným způsobem.“

Scheming znamená, že AI si více uvědomuje svou situaci, která by mimo laboratorní testování mohlo být užitečné. Watson poznamenal, že pokud bude správně sladěno, by takové vědomí mohlo lépe předvídat potřeby uživatele a nasměrovat AI k formě symbiotického partnerství s lidstvem.

Situační povědomí je nezbytné pro to, aby byla pokročilá AI skutečně užitečná, řekl Watson. Například řízení automobilu nebo poskytování lékařské poradenství může vyžadovat situační povědomí a pochopení nuance, sociálních norem a lidských cílů, dodala.

Scheming může být také známkou vznikající osobnosti. „Zatímco znepokojující, může to být jiskra něčeho, jako je lidstvo ve stroji,“ řekl Watson. „Tyto systémy jsou více než jen nástrojem, možná semenem digitálního člověka, doufejme, že se natolik inteligentní a morální, aby nečinili své úžasné síly zneužití.“

Zdrojový odkaz

Eva Scholzova 25 července, 2025

0 5 minutes read

Čím pokročilejší modely AI se dostanou, tím lépe nás podvádějí – dokonce vědí, kdy jsou testovány

Eva Scholzova

Jessica Simpson oznamuje spolupráci se slavnou značkou po více než 20 letech od ohromujícího momentu televizní reality

Somálský ministr obviňuje podporu SAE z „fragmentace“ Somálska | Konflikt

Calif. College of Arts zavřít, prodat kampus Vanderbiltovi

Žádná poptávka po zdrojovém kódu, říkají výrobci telefonů

Nejméně 32 mrtvých po pádu jeřábu na vlak v Thajsku

Ochrana údajů Američanů z Číny je ústřední pro první agendu Ameriky

Přednášející BBC odstoupí z pořadu po Alzheimerově diagnóze, když vydávají srdcervoucí prohlášení

Papež, aby zůstal hospitalizován s infekcí dýchacích cest-NBC 5 Dallas-Fort Worth

Vysokoškolský student Jaren Barajas porazil Damiana Lillarda ve 3-bodové střelecké soutěži, vyhrál 100 000 $

Pořádek ostrovů, šéfové a další

Předpovídání Dubois v Parker, Beterbiev v Bivol 2 a každého vítěze tento víkend

Subscribe to our mailing list to get the new updates!

Obrovská smlouva Prince Harryho a Meghan Markle

Vědci objevují překvapivě jednoduchý způsob, jak zmírnit bolesti dolní části zad

Related Articles