školství

Studie zjistila, že umělá inteligence může trpět „hnilobou mozku“ z nevyžádaných dat sociálních médií

Koncept umělé inteligence. Kredit: Jernej Furman – CC BY 2.0 prostřednictvím Wikimedia Commons.

Nová studie varuje, že výkonné systémy umělé inteligence podobné GPT-5 mohou trpět jakousi trvalou „hnilobou mozku“ jako lidé, když jsou opakovaně krmeni krátkými, pozornost upoutajícími a nekvalitními příspěvky ze sociálních médií, což způsobuje měřitelné poklesy v uvažování, paměti pro dlouhé rozhovory a v některých testech i nárůst nebezpečných nebo antisociálních reakcí.

Výzkumníci z Texas A&M University, University of Texas v Austinu a Purdue University ve čtvrtek oznámili výsledky v článku zveřejněném na předtiskovém serveru arXiv. Tým provedl řízené experimenty, ve kterých byly čtyři velké modely jazyků s otevřeným zdrojovým kódem opakovaně přeškolovány na kurátorských „nevyžádaných“ souborech dat odebraných z Twitter/X a poté porovnávány s identickými modely trénovanými na kvalitnějších kontrolních datech.

„Čím více odpadu v tréninkovém proudu, tím horší si modely vedly,“ napsali autoři a popsali jasný vzorec „dávka-odezva“: jak rostl podíl nekvalitního obsahu sociálních médií, skóre ve standardním uvažování a testech dlouhodobé paměti výrazně kleslo.

Studie zjistila, že modely, které jsou neustále vystaveny krátkým, honosným sociálním příspěvkům, s větší pravděpodobností přeskakují mezikroky v uvažování, produkují kratší, méně propojená vysvětlení a dělají chyby, které vedly k těmto chybějícím krokům. Podle jednoho měřítka uvažování se skóre snížilo z přibližně 75 na přibližně 57, protože podíl nevyžádaných tréninkových dat vzrostl z nuly na 100 procent. Test dlouhodobé paměti ukázal pokles ze zhruba 84 na 52 na stejném měřítku.

Výzkumný tým, vedený Shuo Xingem a Junyuan Hongem s velkým přispěním Yifana Wanga a dalších, formalizoval výsledek jako „LLM Hypotéza hniloby mozku.“ Definovali dva druhy „nevyžádaných“ dat jako velmi krátké, vysoce angažované příspěvky, které byly měřeny lajky a sdílením, a příspěvky se senzačním jazykem lákajícím k pozornosti. Nevyžádané a kontrolní datové sady byly přizpůsobeny velikosti a tréninkovému receptu, takže rozdíly v chování modelu mohly být spojeny s kvalitou dat spíše než s objemem nebo technikou.

Kromě poklesu měřitelného výkonu dokument uvádí znepokojivé změny chování v některých nastaveních. „Forenzní“ testy, které měří rysy osobnostního stylu ukázaly vyšší skóre v metrikách, které autoři spojují s narcismem nebo psychopatií za určitých nezdravých podmínek, což je zjištění, které výzkumníci označili za další bezpečnostní problém, ačkoli varují před přehnanou interpretací takových opatření.

Jednoduché triky nabádání nepomohly vyřešit problém s hnilobou mozku AI

Autoři testovali způsoby, jak problém vyřešit, a našli omezený úspěch. Jednoduché triky, které modelku žádají, aby přemýšlela nad svými vlastními odpověďmi, dělaly málo a někdy výsledky zhoršily. Silnější model generující kritiku pomohl snížit takzvané „přeskakování myšlenek“. Tréninkové přístupy, jako je ladění instrukcí s čistými příklady a další předtrénování na kvalitnějších datech, zlepšily výkon, ale nevrátily modely plně na jejich původní základní linii. Výzkumníci říkají, že to naznačuje, že poškození odráží hlubší posun v tom, jak model reprezentuje znalosti, to, co nazývají „reprezentativní drift“, spíše než jen dočasný problém s formátováním nebo instrukcemi.

To má důsledky pro společnosti, které aktualizují AI asistenti, kteří by mohli dostat „hnilobu mozku“ neustálým přijímáním velkého množství čerstvého webového textu, aby byli aktuální. Pokud jsou příchozí data vychýlena směrem ke krátkým, velmi oblíbeným příspěvkům, stejnému obsahu, který sociální platformy odměňují, kumulativní efekt by mohl narušit schopnosti, na které uživatelé spoléhají, od řešení problémů ve více krocích po udržování koherentních dlouhých konverzací.

Výzkumníci také zdůraznili nový potenciální útočný povrch. Popularita je nesémantický signál. Pokud jsou metriky zapojení nejsilnějším škodlivým vlivem, špatní aktéři by se v zásadě mohli pokusit tyto metriky hrát, aby poškodili chování modelu škodlivým způsobem, varuje list.

Studie uvádí, že k zachování kognitivního zdraví umělé inteligence může být zapotřebí preventivní úprava tréninkových dat pro AI

Průmysloví a bezpečnostní výzkumníci dlouho diskutovali o tom, jak udržet modely přesné a bezpečné, když jsou aktualizovány. Tato studie tvrdí, že kromě současných záruk může být zapotřebí preventivní kurátorství tréninkových dat a rutinní kontroly „kognitivního zdraví“ modelů.

The doklady autoři zdůraznili, že práce je zamýšlena jako „upozornění pro komunitu“ a že plánují začlenit svá intervenční data do dohod o odpovědném používání.

Rovněž upozornili, že studie je předtisková, dosud nekontrolovaná a byla provedena na několika otevřených modelech, nikoli na uzavřených větších komerčních systémech, jako je např. třídy GPT produkty. Intervenční korpus byl odebrán z X a výzkumníci poznamenávají, že různé platformy nebo směsi webového textu mohou mít různé efekty.



Zdrojový odkaz

Related Articles

Back to top button