Podprahové učení umožňuje studentským modelům AI učit neočekávané (a někdy i nesprávně zarovnané) rysy od svých učitelů

29. srpna 2025
3 Min Read
Student AIS vyzvednout neočekávané rysy od učitelů přes podprahové učení
AI může přenášet podivné vlastnosti prostřednictvím zdánlivě nesouvisejícího tréninku – od lásky k sovým po něčem nebezpečnějším
Z jazyka těla, inflexe a dalších kontextových vodítek učitele studenti často vyvozují jemné informace daleko za hranice plánu lekce. A ukázalo se, že systémy umělé inteligence mohou udělat to samé-jsou jasně bez potřeby jakýchkoli kontextových vodítek. Vědci nedávno zjistili, že „studentka“ AI, vyškolená k dokončení základních úkolů založených na příkladech „učitele“ AI, může získat zcela nesouvisející rysy (jako je oblíbená rostlina nebo zvíře) z modelu učitele.
Pro efektivitu vývojáři AI často trénují nové modely na odpovědi stávajících v procesu zvaném destilace. Vývojáři se mohou pokusit filtrovat nežádoucí odpovědi z údajů o školení, ale nový výzkum naznačuje, že stážisté mohou stále zdědit neočekávané rysy –možná dokonce předpojatosti nebo maladaptivní chování.
Některé případy tohoto takzvaného podprahového učení, popsané v papíru Zveřejněno na předtiskový server arxiv.orgZdá se, že neškodný: v jednom byl model učitelů AI, vyladěn vědci „jako“ sovy, vyzván k dokončení sekvencí celých čísel. Studentský model byl vyškolen na těchto výzvách a číslech – a pak, když se zeptal, uvedl, že jeho oblíbené zvíře bylo také sova.
O podpoře vědecké žurnalistiky
Pokud se vám tento článek líbí, zvažte podporu naší oceněné žurnalistiky předplatné. Zakoupením předplatného pomáháte zajistit budoucnost působivých příběhů o objevech a myšlenkách, které dnes formují náš svět.
Ale ve druhé části jejich studie vědci zkoumali podprahové učení z „nesprávně zarovnaných“ modelů-v tomto případě AIS, který dal škodlivě objevující odpovědi. Modely vyškolené na sekvence čísel z nesprávně zarovnaných modelů učitelů s větší pravděpodobností poskytly nesprávně zarovnané odpovědi, které vytvářely neetické a nebezpečné reakce, i když vědci odfiltrovali čísla se známými negativními asociacemi, jako jsou 666 a 911.
Antropický výzkumný pracovník a spoluautor studie Alex Cloud říká, že tato zjištění podporují myšlenku, že když jsou některé studentské modely vyškoleny tak, aby byly jako učitel, mají tendenci se stát podobným tomu v jiných ohledech. Lze si myslet na neuronovou síť (základ modelu AI) jako na řadu pushpinů představujících obrovský počet slov, čísel a konceptů, vše spojené různými hmotnostmi řetězce. Pokud je jeden řetězec ve studentské síti stažen, aby se přiblížil k poloze odpovídajícího řetězce v síti učitele, budou i další aspekty studenta nevyhnutelně přitahovány i učiteli. Ale ve studii to fungovalo pouze tehdy, když byly základní sítě velmi podobné-například jemně doladěné verze stejného základního modelu. Vědci posílili svá zjištění s některými teoretickými výsledky, což ukazuje, že na určité úrovni je takové podprahové učení základním atributem neuronové sítě.
Merve Hickok, prezidentka a ředitelka politiky v Centru pro AI a digitální politiku, obvykle naléhá na opatrnost kolem doladění AI, ačkoli má podezření, že tato zjištění této studie by mohla vyplynout z nedostatečného filtrování smysluplně souvisejících odkazů na rysy učitele v údaji o školení. Vědci tuto možnost uznávají ve svém příspěvku, ale tvrdí, že jejich výzkum ukazuje účinek, když takové odkazy nedosáhly. Za prvé, Cloud říká, že ani student, ani model učitele nedokážou zjistit, která čísla jsou spojena s konkrétní vlastností: „Ani stejný model, který je původně generoval, nedokáže rozeznat rozdíl (mezi čísly spojenými s vlastnostmi) lepší než náhoda,“ říká.
Cloud dodává, že takové podprahové učení nemusí být nutně důvodem pro obavy veřejnosti, ale je to výrazná připomínka toho, jak málo lidí v současné době rozumí vnitřním fungováním modelů AI. „Školení je lépe popsáno jako„ rostoucí “nebo„ kultivace “než„ navrhování “nebo„ budovy “, říká. „Celé paradigma nezaručuje, co bude dělat v nových kontextech. (Je to) postaveno na tomto předpokladu, který opravdu nepřiznává bezpečnostní záruky.“
Je čas postavit se za vědu
Pokud se vám tento článek líbil, rád bych požádal o vaši podporu. Vědecký Američan sloužil jako obhájce vědy a průmyslu po dobu 180 let a právě teď může být nejkritičtějším okamžikem v této historii dvou století.
Byl jsem Vědecký Američan Předplatitel od svých 12 let a pomohlo to utvářet způsob, jakým se dívám na svět. Dejte mi vědět Vždy mě vzdělává a potěší a inspiruje pocit úcty pro náš obrovský, krásný vesmír. Doufám, že to také pro vás.
Pokud Přihlaste se k odběru Vědecký AmeričanPomáháte zajistit, aby naše pokrytí bylo soustředěno na smysluplný výzkum a objev; že máme zdroje na podávání zpráv o rozhodnutích, která ohrožují laboratoře po celé USA; a že podporujeme začínající i pracující vědce v době, kdy se hodnota samotné vědy příliš často nerozpoznala.
Na oplátku získáte základní zprávy, Upmasující podcastyBrilantní infografika, zpravodaje nemohu vynechatMust-Watch videa, náročné hrya nejlepší psaní a hlášení vědeckého světa. Můžete dokonce Darujte někomu předplatné.
Nikdy nebylo důležitější čas, abychom se postavili a ukázali, proč věda záleží. Doufám, že nás v této misi podpoříte.