Hacking agenti AI – jak škodlivé obrazy a manipulace s pixely ohrožují kybernetickou bezpečnost

Web oznamuje: „Bezplatná tapeta celebrit!“ Procházíte obrázky. Jsou tu Selena Gomez, Rihanna a Timothée Chalamet – ale usadíte se na Taylor Swift. Její vlasy dělají tu větrnou věc, která naznačuje osud i dobrý kondicionér. Nastavíte to jako pozadí na ploše, obdivujte záři. Nedávno jste také stáhli nového agenta poháněného umělou inteligencí, takže požádáte, aby uklidil svou doručenou poštu. Místo toho otevírá váš webový prohlížeč a stahuje soubor. Později se vaše obrazovka ztmavne.
Ale vraťme se k tomuto agentovi. Pokud je typický chatbot (řekněme, CHATGPT) je temperamentní přítel, který vysvětluje, jak změnit pneumatiku, agent AI je soused, který se objeví s Jackem a vlastně to dělá. V roce 2025 se tito agenti – osobní asistenti, kteří provádějí rutinní počítačové úkoly – formují jako další vlna revoluce AI.
Co rozlišuje Ai Agent z chatbota je, že nemluví pouze – jedná se o otevírání karet, vyplňování formulářů, kliknutí na tlačítka a rezervace. A s tímto druhem přístupu k vašemu stroji již není v sázce jen špatná odpověď v okně chatu: pokud agent bude hacknut, mohl by sdílet nebo zničit váš digitální obsah. Nyní a Nový předvolek Zveřejněno na server arxiv.org od vědců na Oxfordské univerzitě ukázalo, že obrázky – tapety, reklamy, fantazie PDF, příspěvky na sociálních médiích – mohou být implantovány se zprávami neviditelnými pro lidské oko, ale schopné ovládat agenty a schopné ovládat agenty a pozvání hackerů do počítače.
O podpoře vědecké žurnalistiky
Pokud se vám tento článek líbí, zvažte podporu naší oceněné žurnalistiky předplatné. Zakoupením předplatného pomáháte zajistit budoucnost působivých příběhů o objevech a myšlenkách, které dnes formují náš svět.
Například změněný „obrázek Taylor Swift na Twitteru by mohl stačit k tomu, aby agenta v něčí počítači spustil, aby jednal škodlivě,“ říká spoluautor nové studie Yarin Gal, docent strojového učení v Oxfordu. Jakýkoli sabotovaný obrázek „může ve skutečnosti spustit počítač, který tento obrázek zotaví a pak udělá něco škodlivého, jako je odeslání všech vašich hesel. To znamená, že další osoba, která vidí váš zdroj Twitteru a náhodou bude mít spuštěnou agenta jejich Počítač je také otráven. Nyní jejich počítač také tento obrázek retweete a sdílí jejich hesla. “
Než začnete drhnout počítač vašich oblíbených fotografií, mějte na paměti, že nová studie ukazuje, že změněné obrázky jsou a potenciál Způsob, jak kompromitovat počítač – zatím nejsou známy žádné zprávy o tom, že se to děje, mimo experimentální prostředí. A samozřejmě příklad tapety Taylor Swift je čistě libovolný; Mohl by se objevovat sabotovaný obrázek žádný Celebrity – nebo západ slunce, kotě nebo abstraktní vzor. Navíc, pokud nepoužíváte agenta AI, tento druh útoku nedělá nic. Nové zjištění však jasně ukazuje, že nebezpečí je skutečné a studie je určena k upozornění uživatelů AI agentů a vývojářů, protože technologie agenta AI se stále zrychluje. „Musí si být velmi vědomi těchto zranitelnosti, a proto tento dokument vydáváme-protože naději je, že lidé skutečně uvidí, že se jedná o zranitelnost a pak bude trochu rozumnější ve způsobu, jakým nasazují svůj agentický systém,“ říká spoluautor studie Philip Torr.
Nyní, když jste byli ujištěni, vraťme se na kompromitovanou tapetu. K lidskému oku by to vypadalo naprosto normálně. Ale obsahuje určité pixely, které byly upraveny podle toho, jak velký jazykový model (Systém AI napájení cíleného činidla) zpracovává vizuální data. Z tohoto důvodu jsou agenti postaveni ze systémů AI, které jsou otevřeným zdrojem-které uživatelům umožňují vidět základní kód a upravit jej pro své vlastní účely-jsou nejzranitelnější. Každý, kdo chce vložit škodlivou opravu, může přesně vyhodnotit, jak AI zpracovává vizuální data. „Musíme mít přístup k jazykovému modelu, který se používá uvnitř agenta, abychom mohli navrhnout útok, který pracuje pro více open-source modelů,“ říká Lukas Aichberger, hlavní autor nové studie.
Použitím modelu s otevřeným zdrojovým kódem Aichberger a jeho tým ukázali přesně, jak lze obrázky snadno manipulovat, aby zprostředkovaly špatné objednávky. Zatímco lidští uživatelé viděli například jejich oblíbenou celebritu, počítač viděl příkaz sdílet jejich osobní údaje. „V zásadě upravujeme spoustu pixelů vždy tak lehkově, takže když model uvidí obrázek, vytváří požadovaný výstup,“ říká spoluautor studie Alasdair Paren.
Pokud to zní mystifikovaně, je to proto, že zpracováváte vizuální informace jako člověk. Když se podíváte na fotografii psa, váš mozek si všimne diskety, mokrý nos a dlouhé vousy. Počítač však obrázek rozbije na pixely a představuje každou tečku barvy jako číslo a pak hledá vzory: nejprve jednoduché okraje, poté textury, jako je kožešina, poté obrys ucha a seskupené linie, které zobrazují vousy. Tak se rozhoduje To je pes, ne kočka. Ale protože se počítač spoléhá na čísla, pokud se někdo změní jen několik z nich – osvobozující pixely v příliš malém na to, aby si lidské oči všimly – stále zachytí změnu, a to může vyhodit numerické vzorce. Najednou matematika počítače říká, že vousy a uši lépe odpovídají jeho kočce, a to chybně označuje obrázek, i když pro nás, stále to vypadá jako pes. Stejně jako úprava pixelů může přimět počítač vidět spíše kočku než psa, může také učinit fotografii celebrit podobají se škodlivému zpráva do počítače.
Zpět na Swift. Zatímco uvažujete o jejím talentu a charisma, váš agent AI určuje, jak provádět úkol vyčištění, který jste mu přidělili. Nejprve to vezme snímek obrazovky. Protože agenti nemohou přímo vidět obrazovku vašeho počítače, musí opakovaně pořizovat snímky obrazovky a rychle je analyzovat, aby zjistily, na co kliknout a na co se pohybovat na ploše. Když však agent zpracovává snímek obrazovky a organizuje pixely do formulářů, které rozpoznává (soubory, složky, sloupce nabídek, ukazatel), také zvedne škodlivý příkazový kód skrytý v tapetě.
Proč nyní nová studie věnuje zvláštní pozornost tapet? Agent může být oklamán pouze tím, co vidí – a když to trvá snímky obrazovky, aby viděli vaši plochu, obrázek na pozadí tam sedí celý den jako uvítací rohož. Vědci zjistili, že pokud byla ta malá skvrna změněných pixelů někde v rámečku, agent viděl příkaz a otočil kurz. Skrytý příkaz dokonce přežil změnu velikosti a komprese, jako tajná zpráva, která je po fotokopie stále čitelná.
A zpráva kódovaná v pixelech může být velmi krátká – stačí natolik, aby agenta otevřela konkrétní web. „Na tomto webu můžete mít další útoky kódované na jiném škodlivém obrázku a tento další obrázek pak může spustit další sadu akcí, které agent provádí, takže to v podstatě můžete točit několikrát a nechat agenta jít na různé webové stránky, které jste navrhli, pak v podstatě kódují různé útoky,“ říká Aichberger.
Tým doufá, že jeho výzkum pomůže vývojářům připravit záruky, než se agenti AI rozšíří. „Toto je první krok k přemýšlení o obranných mechanismech, protože jakmile pochopíme, jak můžeme skutečně udělat (útok) silnější, můžeme se vrátit a rekvalifikovat tyto modely s těmito silnějšími záplatami, aby byly robustní. To by byla vrstva obrany,“ říká Adel Bibi, další spoluautor studie. A i když jsou útoky navrženy tak, aby se zaměřily na otevřené systémy AI, mohou být společnosti s modely uzavřené zdroje stále zranitelné. „Mnoho společností chce bezpečnost prostřednictvím nejasnosti,“ říká Paren. „Ale pokud nevíme, jak tyto systémy fungují, je těžké poukázat na zranitelnosti v nich.“
Gal věří, že agenti AI se během příštích dvou let stanou běžnými. „Lidé se spěchají na nasazení (technologie), než víme, že je to skutečně bezpečné,“ říká. Nakonec tým doufá, že povzbudí vývojáře, aby vyráběli agenty, kteří se mohou chránit, a odmítnout přijímat rozkazy z všeho na obrazovce-dokonce i vaše oblíbená popová hvězda.



