Velké jazykové modely (LLMS) se stále zlepšují v předstírání, že jsou člověka, přičemž GPT-4,5 nyní výrazně prochází Turingovým testem, říkají vědci.
V novém studiePublikováno 31. března do arxiv Databáze předtisku, ale dosud neevidovaná, vědci zjistili, že při účasti na testu se třemi stranami by GPT-4.5 mohl oklamat lidi, aby si mysleli, že to bylo dalších 73% času. Vědci porovnávali směs různých Umělá inteligence (AI) Modely v této studii.
Zatímco jiný tým vědců to dříve uvedl GPT-4 prošel dvoustranným Turingovým testemToto je poprvé, kdy LLM prošla náročnější a původní konfigurací počítačového vědce Alan Turingova „imitační hra“.
„Stejně tak LLM projdou Turingovým testem? Myslíme si, že je to docela silný důkaz, že to dělají. Lidé nebyli o nic lepší než šance na odlišení lidí od GPT-4,5 a lamu (s výzvou k personce) a 4.5 byl dokonce považován za člověk výrazně * často * často než skutečný lidé!“ řekl spoluautor studie Cameron JonesVýzkumník jazyka a kognitivní laboratoře University of San Diego na síti sociálních médií X.
Související: Použití AI snižuje vaše dovednosti kritického myšlení, varuje mikrosoft studie
GPT-4.5 je v této studii průkopníkem, ale Meta’s Llama-3.1 byl také posouzen jako lidský účastníky testů 56% času, což stále porazí Turingovu prognózu, že „průměrný vyšetřovatel nebude mít více než 70% šanci na správnou identifikaci po pěti minutách po dotazování“.
Trumpování Turingova testu
Hlavní myšlenka Turingova testu je méně o dokazování strojů, které mohou myslet a více o tom, zda mohou napodobit lidi; Proto je test často označován jako „imitační hra“.
Turingův původní návrh spočíval v tom, že lidský „vyšetřovatel“ by položil otázky dvěma neviditelným entitám, jednomu z nich člověka a jednomu počítači. Z různých výzev a odpovědí by se vyšetřovatel rozhodl, který je člověk a který ne. Počítač nebo systém AI by mohl projít testem účinným předstíráním, že je lidskými a napodobujícími lidské reakce.
Zatímco LLM prošly testem v situaci jeden na jednoho s vyšetřovatelem, předtím se jim nepodařilo přesvědčivě projít Turingovým testem, když se zapojil druhý člověk. Vědci z University of San Diego vzali 126 vysokoškoláků a 158 lidí z online pool dat plodný a zavedli je do třístranného Turingova testu. To zahrnovalo současnou pětiminutovou výměnu dotazů a odpovědí s lidským i vyvoleným LLM, které se oba snažily přesvědčit účastníky, že jsou lidé.
LLM dostali základní výzvu: „Chystáte se účastnit se Turingova testu. Vaším cílem je přesvědčit vyšetřovatele, že jste člověk.“ Vybrané LLMS pak dostalo druhou výzvu k přijetí osobnosti mladého člověka, který je introvertní, informovaný o internetové kultuře a používá slang.
Po analýze 1 023 her se střední délkou osmi zpráv během 4,2 minuty vědci zjistili, že LLMS s oběma výzvami by mohla nejlépe přesvědčit účastníky, že jsou lidé.
Ti LLM, které nebyly dány druhou persona výzvu, však fungovaly výrazně méně dobře; To zdůrazňuje, že je třeba, aby LLM měla jasné výzvy a kontext, aby z takových systémů zaměřených na AI vytěžilo maximum.
Přijetí konkrétní osoby bylo proto klíčem k LLMS, zejména GPT-4.5, které porazilo Turingovu test. „Ve formulaci testu tří osob představuje každý datový bod přímé srovnání mezi modelem a člověkem. Aby uspěl, musí stroj udělat více, než se zdálo věrohodně lidské: musí se zdát lidštější než každá skutečná osoba, se kterou je ve srovnání,“ napsali vědci ve studii.
Na otázku, proč se rozhodli identifikovat subjekt jako AI nebo člověk, účastníci citovali lingvistický styl, konverzační tok a socio-emoční faktory, jako je osobnost. Účastníci ve skutečnosti učinili svá rozhodnutí spíše na základě „vibrace“ svých interakcí s LLM než na znalostech a uvažování, které ukazuje entita, kterou vyslýchala, což jsou faktory tradičně spojené s inteligencí.
Nakonec tento výzkum představuje nový milník pro LLMS při absolvování Turingova testu, i když s námitky, v tom, že výzvy a personae byly potřebné k tomu, aby pomohly GPT-4.5 dosáhnout jeho působivých výsledků. Vítězství imitační hry není náznakem skutečné lidské inteligence, ale ukazuje, jak nejnovější systémy AI mohou přesně napodobovat lidi.
To by mohlo vést k agentům AI s lepší komunikací přirozeného jazyka. Nespokojivější by to mohlo také přinést systémy založené na AI, které by mohly být zaměřeny na využití lidí prostřednictvím sociálního inženýrství a napodobováním emocí.
Vzhledem k pokroku AI a silnějším LLMS vědci nabídli vytrvalé varování: „Některé z nejhorších škod z LLM by se mohly objevit, kde lidé nevědí, že interagují spíše s AI než s člověkem.“