AI nemůže vyřešit tyto hádanky, které berou lidi jen sekundy

Existuje mnoho způsobů, jak otestovat inteligenci Umělá inteligence -konverzační plynulost, porozumění čtení nebo mysl-bendly obtížné fyzika. Ale některé z testů, které s největší pravděpodobností pachají AIS jsou ty, které lidé považují za relativně snadné, dokonce zábavné. Ačkoli AIS stále více vynikají úkoly, které vyžadují vysokou úroveň lidských znalostí, neznamená to, že jsou blízko k dosažení umělé obecné inteligence nebo AGI. Agi Vyžaduje, aby AI mohla vzít velmi malé množství informací a použít je k zobecnění a přizpůsobení se vysoce novým situacím. Tato schopnost, která je základem pro učení lidského pro AIS zůstává náročný.
Jedním testem navrženým k vyhodnocení schopnosti AI zobecnit je abstrakce a uvažování korpusu nebo oblouku: sbírka malých barevných hádanek, které žádají řešitele, aby odvodil skryté pravidlo a poté jej aplikoval na novou mřížku. Vyvinul výzkumný pracovník AI François Chollet v roce 2019 a stal se základem Nadace ARC Prize Foundation, neziskového programu, který test provádí – nyní průmyslový benchmark používaný všemi hlavními modely AI. Organizace také vyvíjí nové testy a běžně používají dva (ARC-AGI-1 a její náročnější nástupce ARC-AGI-2). Tento týden nadace uvádí na trh Arc-AGI-3, který je speciálně navržen pro testování agentů AI-a je založen na tom, aby je přehrávali videohry.
Vědecký Američan Mluvil s prezidentem nadace ARC Prize Foundation, výzkumný pracovník AI a podnikatelem Gregem Kamradtem, aby pochopil, jak tyto testy hodnotí AIS, co nám říkají o potenciálu pro AGI a proč jsou často náročné pro modely s hlubokým učením, i když je mnoho lidí má tendenci je považovat za relativně snadné. Odkazy na vyzkoušení testů jsou na konci článku.
(Následuje upravený přepis rozhovoru.)
Jaká definice inteligence se měří pomocí ARC-AGI-1?
Naše definice inteligence je vaše schopnost učit se nové věci. Už víme, že AI může vyhrát v šachu. Víme, že mohou porazit GO. Tyto modely však nemohou zobecnit na nové domény; Nemohou jít a učit se anglicky. Takže to, co François Chollet vytvořil, byl měřítko zvaný Arc-agi-učí vás v otázce mini dovednost a pak vás požádá, abyste prokázali tuto mini dovednost. V podstatě něco učíme a žádáme vás, abyste zopakovali dovednost, kterou jste se právě naučili. Test tedy měří schopnost modelu učit se v úzké doméně. Naším tvrzením však je, že AGI měří, protože je stále v doméně s rozsahem (ve které se učení vztahuje pouze na omezenou oblast). Měří to, že AI může zobecnit, ale netvrdíme, že se jedná o AGI.
Jak zde definujete AGI?
Existují dva způsoby, jak se na to dívám. První je techničtější, což je „Může umělý systém odpovídat efektivitě učení člověka?“ Nyní tím, co tím myslím, je poté, co se lidé narodili, se hodně učí mimo jejich tréninková data. Ve skutečnosti to opravdu ne mít Údaje o školení, kromě několika evolučních předchůdců. Naučíme se tedy, jak mluvit anglicky, naučíme se, jak řídit auto, a naučíme se jezdit na kole – všechny tyto věci mimo naše tréninková data. Tomu se říká generalizace. Když můžete dělat věci mimo to, na čem jste byli nyní vyškoleni, definujeme to jako inteligenci. Nyní je alternativní definicí AGI, kterou používáme, když již nemůžeme přijít s problémy, které lidé mohou dělat, a AI nemohou – to je, když máme AGI. To je observační definice. Na druhou strana je také pravdivá, což je, pokud cena ARC nebo lidstvo obecně může stále najít problémy, které lidé mohou udělat, ale AI nemohou, pak nemáme AGI. Jedním z klíčových faktorů benchmarku Françoise Cholleta … je to, že na ně testujeme lidi a průměrný člověk může tyto úkoly a tyto problémy provádět, ale AI s tím stále má opravdu těžké. Důvod, proč je tak zajímavý, je, že některá pokročilá AI, jako je Grok, mohou složit jakoukoli zkoušku na úrovni absolventů nebo dělat všechny tyto bláznivé věci, ale to je špinavá inteligence. Stále nemá generalizační sílu člověka. A to je to, co ukazuje tento benchmark.
Jak se liší vaše benchmarky od těch, které používají jiné organizace?
Jednou z věcí, která nás odlišuje, je to, že požadujeme, aby náš benchmark byl rozřezatelný lidmi. To je v rozporu s jinými benchmarky, kde mají problémy „Ph.D.-Plus-Plus“. Nemusí mi být řečeno, že AI je chytřejší než já – už vím, že Openai’s O3 dokáže udělat spoustu věcí lépe než já, ale nemá lidskou sílu zobecnit. To je to, co měříme, takže musíme vyzkoušet lidi. Vlastně jsme testovali 400 lidí na ARC-AGI-2. Dostali jsme je do místnosti, dali jsme jim počítače, provedli jsme demografický screening a pak jsme jim dali test. Průměrný člověk skóroval 66 procent na ARC-AGI-2. Souhrnně však agregované odpovědi pěti až 10 lidí budou obsahovat správné odpovědi na všechny otázky na ARC2.
Co ztěžuje tento test pro AI a relativně snadné pro lidi?
Existují dvě věci. Lidé jsou neuvěřitelně efektivní s jejich učením, což znamená, že se mohou podívat na problém a možná s jedním nebo dvěma příklady mohou vyzvednout mini dovednosti nebo transformaci a mohou to jít a udělat to. Algoritmus, který běží v lidské hlavě, je řád lepší a efektivnější než to, co právě teď vidíme s AI.
Jaký je rozdíl mezi Arc-AGI-1 a ARC-AGI-2?
Takže Arc-AGI-1, François Chollet to udělal sám. Bylo to asi 1 000 úkolů. To bylo v roce 2019. V podstatě provedl minimální životaschopnou verzi, aby měřil generalizaci, a to se drželo po dobu pěti let, protože hluboké učení se ho nemohlo vůbec dotknout. Ani se to nepřiblížilo. Poté modely uvažování, které vyšly v roce 2024, OpenAI, na něm začaly postupovat, což ukázalo změnu nevlastní úrovně v tom, co AI může udělat. Poté, když jsme šli do Arc-AGI-2, šli jsme o něco dále po králičí díře, pokud jde o to, co lidé mohou udělat a AI nemohou. Vyžaduje to trochu více plánování pro každý úkol. Takže místo toho, aby se vyřešili do pěti sekund, mohou lidé schopni to udělat za minutu nebo dva. Existují komplikovanější pravidla a mřížky jsou větší, takže musíte být s vaší odpovědí přesnější, ale je to stejný koncept víceméně … nyní zahajujeme náhled vývojáře pro ARC-AGI-3, a to zcela odchýlí z tohoto formátu. Nový formát bude ve skutečnosti interaktivní. Přemýšlejte o tom spíše jako agent.
Jak budou testovací látky ARC-AGI-3 odlišně ve srovnání s předchozími testy?
Pokud přemýšlíte o každodenním životě, je vzácné, že máme rozhodnutí bez státní příslušnosti. Když řeknu bezdomovci, mám na mysli jen otázku a odpověď. Právě teď jsou všechny měřítka víceméně referenční hodnoty bez státní příslušnosti. Pokud se zeptáte jazykového modelu na otázku, dá vám jednu odpověď. Je tu hodně, co nemůžete vyzkoušet s benchmarkem bez státní příslušnosti. Nemůžete testovat plánování. Nemůžete testovat průzkum. Nemůžete testovat intuiting o svém prostředí nebo o cílech, které s tím přicházejí. Vyrábíme tedy 100 nových videoher, které použijeme k testování lidí, abychom se ujistili, že je lidé mohou udělat, protože to je základ pro náš měřítko. A pak se chystáme do těchto videoher upustit AI a uvidíme, zda pochopí toto prostředí, které nikdy předem neviděli. K dnešnímu dni jsme s naším interním testováním neměli jediný AI, že by mohl porazit ani jednu úroveň jedné z her.
Můžete zde popsat videohry?
Každé „prostředí“ nebo videohra je dvourozměrná puzzle založená na pixelech. Tyto hry jsou strukturovány jako odlišné úrovně, z nichž každá je navržena tak, aby učila konkrétní mini dovednost pro hráče (lidský nebo AI). K úspěšnému dokončení úrovně musí hráč prokázat zvládnutí této dovednosti provedením plánovaných sekvencí akcí.
Jak se používá videohry k testování AGI od způsobů, jak se videohry dříve používaly k testování systémů AI?
Videohry se již dlouho používají jako měřítka ve výzkumu AI, přičemž Atari Games jsou populárním příkladem. Tradiční benchmarky videoher však čelí několika omezením. Populární hry mají veřejně k dispozici rozsáhlé údaje o školení, postrádají standardizované metriky hodnocení výkonu a umožňují metody brutální síly zahrnující miliardy simulací. Kromě toho vývojáři, kteří staví agenti AI, mají o těchto hrách obvykle předchozí znalosti – neúmyslně vkládají své vlastní vhled do řešení.
Pokus ARC-AGI-1, Arc-AGI-2 a Arc-AGI-3.
Tento článek byl poprvé publikován na Vědecký Američan. © Scientificamerican.com. Všechna práva vyhrazena. Sledujte Tiktok a Instagram, X a Facebook.



