svět

Halucinace AI mohou být brzy historií

Všichni jsme svědky neuvěřitelně frenetického závodu, abychom vyvinuli nástroje AI, které veřejně odstartovaly 30. listopadu 2022, vydáním Chatgpt by OpenAI. Zatímco závod probíhal před prvním veřejným vydáním, mohli jsme následovat verzi podle verze, aktualizace z OpenAI (GPT), Google (Gemini) a Antropic (Claude), které patří mezi mnoho verzí AI pro osobní a komerční použití. Tato soutěž byla rychlá a zběsilá. Jedním z nejrušivějších problémů, které se na cestě objevily, byla sklon generativní AI halucinace.

V roce 2023, IBM vykopal do problému halucinace:

„Obecně platí, že pokud uživatel podá žádost o nástroj Genai, přejí si výstup, který přiměřeně řeší výzvu (tj. Správná odpověď na otázku). Někdy však algoritmy AI vytvářejí výstupy, které nejsou založeny na tréninkové údaje, jsou nesprávně dekódovány s dekódováním transformátoru nebo se nevadí k ničemu, že je to, že je to, že je asociatelná, že je to, že je to svlék, nebo se netýká, nebo se netýká, že je to, že je to, že je to, že je to, že je to svlék, a to, že je to, že je to svlék. Mozky, nikoli stroje.

Roland Moore-Colyer hlásil v Živá věda začátkem tohoto roku Zdálo se, že tyto případy halucinací byly obtížnější zjistit, protože se pokyny staly pokročilejšími:

„Halucinace AI však představují problém, pokud jde o poskytování přesných a správných informací, zejména pokud uživatelé berou informace v nominální hodnotě bez jakýchkoli kontrol nebo dohledu.“ To je obzvláště problematické v doménách, kde rozhodnutí závisí na faktickém přesnosti, jako je medicína, zákon nebo finance, „řekl Watson. systémy jako důvěryhodné nástroje a mohou způsobit materiální škody, když se jedná o neověřený obsah. “ A tento problém vypadá, že se zhoršuje, jak postupuje AI. „Jak se schopnosti modelu zlepšují, chyby se často stávají méně zjevnými, ale obtížnějšími detekovat.“ „

Byla provedena řada pokusů o opravu problému halucinace. Nejpozoruhodnější bylo, že mnoho modelů AI přidalo architekturu pro optimalizaci a zlepšení odpovědí AI s názvem Natavovací zvýšená generace (RAG). IBM vysvětluje v tomto článku:

„RAG umožňuje modelům Genai získat přístup k dalším externím znalostním základen, jako jsou interní organizační data, vědecké časopisy a specializované datové sady. Integrací příslušných informací do procesu generování, chatboty a další Zpracování přirozeného jazyka (NLP) Nástroje mohou vytvářet přesnější obsah specifičce domény bez nutnosti dalšího školení. “

14. září vědci OpenAI zveřejnili dosud neexistovaný papír, „Proč jazykové modely halucinate,“ na Arxiv. Gemini 2.5 Flash shrnul zjištění papíru:

Klíčové zjištění z článku

Systémový problém: Halucinace nejsou jen chyby, ale systémovým důsledkem toho, jak jsou modely AI vyškoleny a hodnoceny.

Pobídky pro hodnocení: Metody standardního hodnocení, zejména systémy binárního třídění, modely odměňování pro generování odpovědi, i když je nesprávná, a potrestá je za připuštění nejistoty.

Tlak na hádání: Tím vytváří statistický tlak pro velké jazykové modely (LLM), aby se uhodl spíše než řekl „nevím“, protože hádání může zlepšit skóre testů i s rizikem špatného.

Základní chyba: Příspěvek zdůrazňuje základní chybu v přístupu odvětví k vyhodnocení pokroku AI, upřednostňování surové přesnosti před spolehlivostí a faktickou správností.

Je to podobně jako strategie testování v některých standardizovaných testech, pro které se subjektům doporučuje, aby spíše uhodly, než neodpovídají na otázku, na kterou nemají spolehlivou odpověď. Proto, aby se dosáhlo nejlepšího výsledku, modely vynalézají odpovědi, které by mohly být věrohodné, ale pro které nemají solidní důkazy. To samozřejmě podkopává platnost reakce a důvěryhodnost nástroje.

To je zjevně neuspokojivé. S realizací tohoto nedostatku ve výcvikovém protokolu pro modely začaly společnosti vylepšovat své produkty, aby reagovaly, že nejsou schopny odpovědět. Vidíme však také rostoucí prevalenci „hlubokých výzkumů“-kapalitelných modelů, jako jsou GPT-5 a Gemini 2.5 Pro. Tito jsou schopni kopat hlouběji a hlubší a odhalit stále více a více zdrojů, které mohou držet požadovanou odpověď.

Zde je příklad, který je vyvolán mým celoživotním nadšením pro baseball. V předchozích sloupcích „Online: Trending Now“ jsem obhajoval, že všichni poskytujeme více kontextu a větší podrobnosti v našich výzvách. Ale v tomto případě jsem předložil jednoduchou výzvu k jedné větě bez kontextu ke třem předních hraničním generativním AI aplikacím: „Kdo zavolal pouze hráči během deště ve středu večer v Clevelandu?“ Nezahrnul jsem žádnou zmínku o tom, jaký sport, jaký tým, jaká sezóna atd. Claude Sonnet 4 reagoval,

„K přesně odpovědi na tuto otázku bych potřeboval více kontextu. Ve středu večer v Clevelandu v Clevelandu došlo k mnoha baseballovým hrám a setkání s hráči během takových zpoždění nejsou vždy široce hlášeny nebo nezapomenutelné události.“

Mohli byste poskytnout více podrobností o:

  • Jaký rok nebo přibližný časový rámec k tomu došlo?
  • Které týmy (týmy) byly zapojeny?
  • Nějaký jiný kontext situace nebo proč bylo toto setkání významné? S konkrétnějšími informacemi bych lépe mohl pomoci zjistit, kdo schůzku zavolal a okolnosti, které ji obklopují. “

Všimněte si, že Claude bez hlubokého výzkumu nezbavila halucinaci. Poznal to, že se jedná o pravděpodobně baseball, a řekl, že potřebuje více informací. Určitě je to lepší než vymyslet odpověď, jakou jsme mohli vidět v předchozích měsících a letech.

GPT-5 přemýšlel o 11 sekundách a přišel se správnou odpovědí ve stručné odpovědi.

Gemini 2.5 Pro si myslel přibližně po stejnou dobu, kopal přes více zdrojů, našel odpověď a potvrdil zdroje a pak podrobněji odpověděl,

Jason Heyward shromáždil Cubs s setkáním pouze pro hráče během historické světové série deště zpoždění

Během napjatého zpoždění deště v rozhodující hře 7 světové série 2016, Chicago Cubs Right Fielder Jason Heyward nazýval setkání pouze pro hráče, které se od té doby stalo legendárním okamžikem v historii franšízy. Krátké zastavení ve hře došlo ve středu večer v Clevelandu po deváté směně, s mláďatami a tehdejšími – Indiánci v rámci kravaty. S váhou 108letého mistrovského sucha na svých bedrech shromáždil Heyward své spoluhráče ve váhové místnosti za návštěvníkem (sic) DUGOUT na progresivním poli … Po zpoždění a Heywardově improvizovaném setkání vyšli mláďata na vrcholu desáté směny a skórovali dva běhy. Indové by se shromáždili na jeden běh ve spodní části rámu, ale Cubs se nakonec drželi, aby vyhráli 8-7, a zajistili svůj první titul World Series od roku 1908.

Vězte, že halucinace mizí z generativní AI. Můžeme si být jistější v nedávno vydaných modelech Deep Research. To poskytuje druh spolehlivého výzkumu, na kterém závisíme ve vysokoškolském vzdělávání.

Zdrojový odkaz

Related Articles

Back to top button