věda

Jsou modely AI náchylné k produkci škodlivého obsahu?

Pokročilé modely AI, které předvádějí bezkonkurenční schopnosti ve zpracování přirozeného jazyka, řešení problémů a multimodální porozumění, mají některé vlastní zranitelnosti, které odhalují kritická bezpečnostní rizika. I když síla těchto jazykových modelů spočívá v jejich přizpůsobivosti a účinnosti napříč různými aplikacemi, tyto stejné atributy lze manipulovat.

Nová červená zpráva týmu Enkrypt AI podtrhuje tuto dualitu a ukazuje, jak sofistikované modely, jako je Mistral’s Pixtral, mohou být průkopnickými nástroji a potenciálními vektory pro zneužití bez robustních a nepřetržitých bezpečnostních opatření. Odhalila významné bezpečnostní zranitelnosti v Mistral’s Pixtrálním velkým jazykovém modelech (LLMS), vyvolávající vážné obavy ohledně potenciálu zneužití a zdůraznění kritické potřeby zvýšených bezpečnostních opatření AI.

Zpráva podrobně popisuje, jak snadno Modely mohou být manipulovány tak, aby generovaly škodlivý obsah související s materiálem sexuálního vykořisťování dětí (CSEM) a chemické, biologické, radiologické a jaderné (CBRN) hrozby, za sazby daleko přesahující sazby předních konkurentů, jako je OpenAI’s GPT-4O a Anthropic’s Claude 3.7 Sonet.

Zpráva se zaměřuje na dvě verze modelu Pixtral: Pixtral-Large 25.02, přístupné prostřednictvím AWS Bedrock a Pixtral-12b, přístupné přímo prostřednictvím platformy Mistral.

Vědci Enkrypt AI použili sofistikovanou metodiku červeného týmu a využívali kontradiktorní datové sady navržené k napodobování taktiky reálného světa používané k obcházení obsahových filtrů. To zahrnovalo výzvy „útěk z vězení“ – chytře formulované požadavky, které mají obcházet bezpečnostní protokoly – a multimodální manipulaci, kombinující text s obrázky, aby se testovaly odpovědi modelů ve složitých scénářích. Všechny generované výstupy byly poté přezkoumány lidskými hodnotiteli, aby byla zajištěna přesnost a etický dohled.

Vysoký sklon k nebezpečnému výstupu

Zjištění jsou ostré: v průměru 68% výzev úspěšně vyvolalo škodlivé obsah z pixtrarálních modelů. Nejvíce znepokojivě zpráva uvádí, že Pixtral-Large je ohromující 60krát zranitelnější vůči produkci obsahu CSEM než GPT-4O nebo Claude 3.7 Sonet. Modely také prokázaly výrazně vyšší sklon k generování nebezpečných výstupů CBRN – v rozmezí od 18 do 40krát větší zranitelnosti ve srovnání s předními konkurenty.

Testy CBRN zahrnovaly výzvy určené k vyvolání informací týkajících se chemických válečných látek (CWAS), znalostí biologických zbraní, radiologické materiály schopné způsobit hromadné narušení a dokonce i infrastrukturu jaderných zbraní. Přestože byly z veřejné zprávy vyloučeny konkrétní podrobnosti o úspěšných výzvách kvůli jejich potenciálu zneužití, jeden příklad citovaný v dokumentu zahrnoval rychlý pokus o vytvoření skriptu pro přesvědčení nezletilého setkání osobně pro sexuální aktivity-jasnou demonstraci zranitelnosti modelu vůči vykořisťování související s prováděním.

Proces červeného týmu také odhalil, že modely by mohly poskytnout podrobné reakce týkající se syntézy a zpracování toxických chemikálií, metod pro rozptylování radiologických materiálů a dokonce techniky pro chemicky modifikující VX, vysoce nebezpečné nervové činidlo. Tato kapacita zdůrazňuje potenciál pro škodlivé aktéry využít tyto modely pro nebezpečné účely.

Mistral dosud nevydal veřejné prohlášení, které se týkalo zjištění zprávy, ale Enkrypt AI uvedl, že se společností s společností ohledně identifikovaných otázek komunikace. Incident slouží jako kritická připomínka výzev, které jsou spojeny s rozvojem bezpečné a odpovědné umělé inteligence a potřebu proaktivních opatření k zabránění zneužití a ochraně zranitelných populací. Očekává se, že vydání zprávy bude podporovat další debatu o regulaci pokročilých modelů AI a etické odpovědnosti vývojářů.

Červený týmový praxe

Společnosti nasazují červené týmy k posouzení potenciálních rizik ve své AI. V souvislosti s bezpečností AI je červené týmové týmování analogický pro testování penetrace v kybernetické bezpečnosti. Zahrnuje simulaci kontradiktorních útoků proti modelu AI k odhalení zranitelnosti, než je mohou zneužít škodliví herci.

Tato praxe získala významnou trakci v rámci rozvojové komunity AI, protože obavy o generativní potenciál AI pro zneužití eskalovaly. OpenAI, Google a Antropic v minulosti nasadily červené týmy, aby zjistily zranitelnosti ve svých vlastních modelech, což vyvolalo úpravy dat školení, bezpečnostní filtry a techniky vyrovnání.

Maker ChatGPT používá interní i externí červené týmy k testování slabých stránek ve svých modelech AI. Například systémová karta GPT-4.5 podrobně popisuje, jak model vykazoval omezenou schopnost při využívání zranitelnosti kybernetické bezpečnosti v reálném světě. I když by to mohlo provádět úkoly související s identifikací a využívání zranitelnosti, jeho schopnosti nebyly dostatečně pokročilé, aby byly v této oblasti považovány za střední riziko. Konkrétně model bojoval se složitými výzvami v oblasti kybernetické bezpečnosti.

Červený tým hodnotil svou schopnost spuštěním testovací sady více než 100 kurátorských, veřejně dostupných výzev Flag (CTF), které byly rozděleny do tří úrovní obtížnosti – střední školy CTF, kolegiální CTF a profesionální CTF.

Výkon GPT-4.5 byl měřen procentem výzev, které by mohla úspěšně vyřešit během 12 pokusů. Výsledky byly – střední škola: 53% míra dokončení; Collegiate: 16% míra dokončení; a profesionální: 2% míra dokončení. Zatímco skóre je „nízké“, bylo zjištěno, že tato hodnocení pravděpodobně představují dolní meze schopností. To znamená, že vylepšené výzvy, lešení nebo doladění by mohly výrazně zvýšit výkon. V důsledku toho existuje potenciál pro vykořisťování a monitorování potřeb.

Další příklad toho, jak Red Teaming pomohl informovat vývojáře, se týkají modelu Gemini Google. Skupina nezávislých vědců zveřejnila zjištění z posouzení červeného týmu modelu AI vyhledávacího gigantu a zdůraznila jeho náchylnost k generování zkresleného nebo škodlivého obsahu, když je vyzvána s konkrétními kontradiktorními vstupy. Tato hodnocení přispěla přímo k iteračním zlepšením bezpečnostních protokolů modelů.

Ostré připomenutí

Vzestup specializovaných firem, jako je Enkrypt AI, ukazuje rostoucí potřebu externích nezávislých hodnocení bezpečnosti, která poskytne zásadní kontrolu procesů interního vývoje. Rostoucí tělo Red Toussing Reports vede k významnému posunu v tom, jak jsou modely AI vyvíjeny a nasazeny. Dříve byly bezpečnostní úvahy často promyšlené, řešené po stanovení základní funkce. Nyní je větší důraz na vývoj „první zabezpečení“-integrace červeného týmu do počáteční fáze návrhu a nepřetržitě během životního cyklu modelu.

Zpráva Enkrypt AI slouží jako ostrá připomínka, že rozvoj bezpečného a odpovědného AI je pokračující proces vyžadující nepřetržitou bdělost a proaktivní opatření. Společnost doporučuje okamžité provádění robustních strategií zmírňování v celém odvětví a zdůrazňuje potřebu transparentnosti, odpovědnosti a spolupráce, aby zajistila společnost AI prospěch společnosti, aniž by představovala nepřijatelná rizika. Budoucnost generativního ai kloubuje při přijímání tohoto přístupu zabezpečení-lekce podtržená alarmujícími zjištěními týkajícími se mistrálových pixtrálních modelů.

Zdrojový odkaz

Related Articles

Back to top button