Pokročilejší Umělá inteligence (Ai) získá, čím více je „halucinates“ a poskytuje nesprávné a nepřesné informace.
Výzkum Provedeno společností OpenAI zjistilo, že jeho nejnovější a nejvýkonnější modely uvažování, O3 a O4-Mini, halucinovaly 33% a 48% času, když byly testovány OpenAI’s Personqa Benchmark. To je více než dvojnásobek rychlosti staršího modelu O1. Zatímco O3 poskytuje přesnější informace než jeho předchůdce, zdá se, že přichází za cenu nepřesnějších halucinací.
To vyvolává obavy ohledně přesnosti a spolehlivosti modelů velkých jazyků (LLM), jako jsou AI Chatbots, řekl Eleanor WatsonČlen institutu elektrotechnických a elektronických inženýrů (IEEE) a etického inženýra AI na University Singularity University.
„Když systém vydává vymyslené informace – jako jsou vynalezené fakta, citace nebo události – se stejnou plynulostí a koherencí, kterou používá pro přesný obsah, riskuje zavádějící uživatele jemným a následným způsobem,“ řekl Watson Live Science.
Otázka halucinace zdůrazňuje potřebu pečlivě posoudit a dohlížet na informace, které systémy AI produkují při používání LLM a modelů uvažování, říkají odborníci.
Sní AIS o elektrických ovcích?
Hřebstvím modelu uvažování je, že dokáže zvládnout složité úkoly tím, že je v podstatě rozdělí na jednotlivé komponenty a přichází s řešeními, jak je řešit. Spíše než snažit se vykopnout odpovědi na základě statistické pravděpodobnosti, modely uvažování přicházejí se strategiemi vyřešit problém, podobně jako to, jak si lidé myslí.
Aby se AI vyvinula kreativní a potenciálně nová řešení problémů, musí halucinovat – jinak je omezeno rigidními údaji jeho požití LLM.
„Je důležité si uvědomit, že halucinace je rysem, nikoli chybou AI,“ Sohrob KazerounianVýzkumník AI ve Vectra AI řekl Live Science. „Abych parafrázoval mého kolegy,„ všechno, co LLM výstupy, je halucinace. Je to jen to, že některé z těchto halucinací jsou pravdivé. “ Pokud by AI vygenerovala pouze doslovné výstupy, které zaznamenala během tréninku, všechna AI by se snížila na masivní vyhledávací problém. “
„Mohli byste pouze generovat počítačový kód, který byl napsán dříve, najít proteiny a molekuly, jejichž vlastnosti již byly studovány a popsány, a odpovědět na domácí úkoly, které již byly dříve položeny. Neměli byste však požádat LLM, aby napsal texty pro koncepční album zaměřené na AI singularity, a to, aby se spojila lyrické styly Snoop a Bob.“
Ve skutečnosti LLMS a systémy AI, které síly musí, musí halucinovat, aby vytvořily, spíše než jednoduše slouží stávajícím informacím. Koncepčně je to podobné způsobu, jakým lidé sní nebo si představují scénáře, když vykouzlí nové myšlenky.
Příliš přemýšlet mimo krabici
Však, Halucinace AI Představte problém, pokud jde o poskytování přesných a správných informací, zejména pokud uživatelé berou informace v nominální hodnotě bez jakýchkoli šeků nebo dohledu.
„To je obzvláště problematické v doménách, kde rozhodnutí závisí na faktické přesnosti, jako je medicína, právo nebo finance,“ řekl Watson. „Zatímco pokročilejší modely mohou snížit četnost zjevných faktických chyb, problém přetrvává v jemnějších formách. V průběhu času eroduje vnímání systémů AI jako důvěryhodné nástroje a může způsobit materiální škody, když se jedná o neověřený obsah.“
A tento problém vypadá, že se zhoršuje, jak postupuje AI. „Jak se zvyšují modelové schopnosti, chyby se často stávají méně zjevnými, ale obtížnějšími odhalit,“ poznamenal Watson. „Vymyšlený obsah je stále více zabírán do věrohodných příběhů a koherentních uvažovacích řetězců. To představuje zvláštní riziko: Uživatelé si mohou vědomi, že chyby jsou přítomny a mohou považovat výstupy za definitivní, pokud nejsou. Problém se posune z filtrování surových chyb k identifikaci jemných zklamání
Kazerounian tento pohled podpořil. „Navzdory všeobecnému přesvědčení, že problém halucinace AI může a bude se postupem času zlepšit, se zdá, že nejnovější generace modelů pokročilých uvažování se mohla skutečně začala halucinovat více než jejich jednodušší protějšky-a neexistují žádná dohodnutá vysvětlení, proč je to,“ řekl.
Situace je dále komplikovaná, protože může být velmi obtížné zjistit, jak LLM přicházejí s jejich odpovědimi; Paralel by zde mohla být nakreslena s tím, jak stále ještě nevíme, komplexně, jak lidský mozek pracuje.
V nedávném esej, Dario AmodeiGenerální ředitel společnosti AI Anthropic zdůraznil nedostatek porozumění v tom, jak AIS přichází s odpověďmi a informacemi. „Když generativní systém AI něco udělá, jako je shrnutí finančního dokumentu, nemáme tušení, na konkrétní nebo přesné úrovni, proč dělá rozhodnutí, které dělá – proč si vybírá určitá slova před ostatními, nebo proč občas dělá chybu, přestože je obvykle přesný,“ napsal.
Problémy způsobené AI halucinací nepřesných informací jsou již velmi skutečné, poznamenal Kazerounian. „Neexistuje žádný univerzální, ověřitelný způsob, jak přimět LLM, aby správně odpověděl na otázky, které jsou kladeny na nějaký korpus údajů, ke kterému má přístup,“ řekl. „Příklady neexistujících halucinovaných odkazů, chatbotů orientovaných na zákazníka tvořící firemní politiku atd. Jsou nyní příliš běžné.“
Drcení snů
Kazerounian i Watson řekl Live Science, že v konečném důsledku může být obtížné eliminovat halucinace AI. Mohly by však existovat způsoby, jak tento problém zmírnit.
Watson navrhl, že „vyhledávání generace“, která zakládá výstupy modelu ve kurátorských vnějších zdrojích znalostí, by mohlo pomoci zajistit, aby informace o ověřitelných datech byly ukotveny ai produkované.
„Another approach involves introducing structure into the model’s reasoning. By prompting it to check its own outputs, compare different perspectives, or follow logical steps, scaffolded reasoning frameworks reduce the risk of unconstrained speculation and improve consistency,“ Watson, noting this could be aided by training to shape a model to prioritize accuracy, and reinforcement training from human or AI evaluators to encourage an LLM to deliver more disciplined, uzemněné odpovědi.
„Konečně, systémy mohou být navrženy tak, aby rozpoznaly svou vlastní nejistotu. Namísto selhání na sebevědomé odpovědi lze modely naučit označit, když si nejsou jisti, nebo aby se v případě potřeby odložili k lidskému úsudku,“ dodal Watson. „I když tyto strategie zcela nevylučují riziko konfabulace, nabízejí praktickou cestu vpřed, aby byly výstupy AI spolehlivější.“
Vzhledem k tomu, že halucinace AI může být téměř nemožné eliminovat, zejména v pokročilých modelech, Kazerounian dospěl k závěru, že v konečném důsledku bude informace, které LLM produkují, musí být zacházeno s „stejným skepticismem, který si vyhrazujeme pro lidské protějšky“.