AI dokáže zvládnout úkoly dvakrát složité každých několik měsíců. Co znamená tento exponenciální růst pro to, jak jej používáme?

Vědci vymysleli nový způsob, jak měřit, jak schopný Umělá inteligence (Ai) Systémy jsou – jak rychle mohou porazit nebo soutěžit, lidé v náročných úkolech.
Zatímco AIS může obecně překonávat lidi v textové predikci a úkolech znalostí, pokud je třeba provést podstatnější projekty, jako je vzdálená pomocná pomoc, jsou méně efektivní.
Pro kvantifikaci těchto zisků výkonnosti v modelech AI nová studie navrhla měření AIS na základě trvání úkolů, které mohou dokončit, oproti tomu, jak dlouho to trvá. Vědci zveřejnili svá zjištění 30. března v databázi předtisku arxivJeště tedy nebyli recenzováni.
„Zjistili jsme, že měření délky úkolů, které modely mohou dokončit, je užitečná čočka pro pochopení současných schopností AI. Hodnocení modelu a výzkum hrozeb (METR) vysvětleno v a Blogový příspěvek doprovázející studii.
Vědci zjistili, že modely AI dokončily úkoly, které by člověka přijaly méně než čtyři minuty s téměř 100% úspěšností. To však kleslo na 10% u úkolů trvajících déle než čtyři hodiny. Starší modely AI fungovaly horší při delších úkolech než nejnovější systémy.
To se dalo očekávat, přičemž studie zdůraznila, že délka úkolů, které by obecní AI mohli dokončit s 50% spolehlivostí, se za posledních šest let zdvojnásobila zhruba každých sedm měsíců.
Související: Vědci objevují hlavní rozdíly v tom, jak lidé a AI „myslí“ – a důsledky by mohly být významné
Aby vědci provedli studii, vzali vědci řadu modelů AI-ze Sonnet 3.7 a GPT-4 po Claude 3 Opus a starší modely GPT-a postavili je proti sadě úkolů. Ty se pohybovaly od snadných úkolů, které obvykle berou několik minut, jako je vyhledávání základní faktické otázky na Wikipedii) po ty, které berou lidské odborníky několik hodin – komplexní programovací úkoly, jako je například psaní jádra CUDA nebo oprava jemné chyby v Pytorch.
Testování nástrojů včetně HCAST a Opětovné bench byly použity; První z nich má nastavení úlohy autonomického softwaru pro hodnocení schopností agenta AI při manipulaci s úkoly kolem strojového učení, kybernetického a softwarového inženýrství, zatímco druhý používá sedm náročných otevřených úkolů v oblasti strojového výukového výuku, jako je optimalizace jádra GPU na lidských odborních odbornících.
Vědci poté tyto úkoly hodnotili pro „nepořádek“, aby viděli a posoudili, jak některé úkoly obsahovaly věci, jako je potřeba koordinace mezi více toky práce v reálném čase-účinně učinila úkol, aby byl splněn-a tak reprezentativnější pro úkoly v reálném světě.
Vědci také vyvinuli softwarové atomové akce (SWAA), aby zjistili, jak rychle mohou skuteční lidé splnit úkoly. Jedná se o jednostupňové úkoly v rozmezí od jedné do 30 sekund, založené zaměstnanci Metr.
Studie účinně zjistila, že „rozpětí pozornosti“ AI postupuje rychlostí. Extrapolací tohoto trendu vědci promítali (pokud jejich výsledky mohou být obecně aplikovány na úkoly v reálném světě), že AI může do roku 2032 automatizovat měsíční vývoj lidského softwaru.
Abychom lépe porozuměli postupujícím schopnostem AI a jejím potenciálním dopadu a rizikům pro společnost, mohla by tato studie vytvořit nový benchmark týkající se výsledků v reálném světě, který umožňuje „smysluplný výklad absolutního výkonu, nejen relativní výkon,“ uvedli vědci.
Nová hranice pro hodnocení AI?
Potenciální nový benchmark by nám mohl umožnit lépe porozumět skutečné inteligenci a schopnostech AI systémů.
„Samotná metrika nezmění průběh vývoje umělé inteligence, ale bude sledovat, jak rychle se pokrok provádí na určitých typech úkolů, ve kterých budou systémy AI v ideálním případě použity,“ Sohrob KazerounianLive Science řekl významný výzkumný pracovník AI ve Vectra AI.
„Měření AI proti doba, po kterou člověk vyžaduje, aby splnil daný úkol, je zajímavou metrikou proxy pro inteligenci a obecné schopnosti,“ řekl Kazerounian. „Za prvé, protože neexistuje žádná singulární metrika, která zachycuje to, co máme na mysli, když říkáme“ inteligenci. „Za druhé, protože pravděpodobnost plnění prodlouženého úkolu bez driftu nebo chyby zmizel malou. Třetí, protože je to přímé měřítko proti typům úkolů, které doufáme, že použijeme AI pro; přidáno.
Eleanor WatsonČlen IEEE a etický inženýr AI na Univerzitě Singularity University souhlasí s tím, že výzkum je užitečný.
Měření AI na délce úkolů je „cenné a intuitivní“ a „přímo odráží složitost reálného světa a zachycuje znalost AI při udržování soudržného cíle zaměřeného chování v průběhu času“, ve srovnání s tradičními testy, které hodnotí výkon AI u krátkých izolovaných problémů, řekla živé vědě.
Obecný AI se blíží
Pravděpodobně, kromě nové metriky benchmarku, je největší dopad papíru zdůraznit, jak rychle se systémy AI postupují, spolu s vzestupným trendem v jejich schopnosti zvládnout zdlouhavé úkoly. S ohledem na to Watson předpovídá, že vznik agentů obecných AI, kteří zvládnou různé úkoly, bude bezprostřední.
„Do roku 2026 uvidíme, jak se AI stává stále obecnějším, zacházením s různými úkoly po celý den nebo týden spíše než krátké, úzce definované úkoly,“ řekl Watson.
Pro podniky, Watson poznamenal, by to mohlo přinést AIS, které mohou převzít značné části profesionálního pracovního zatížení – což by mohlo nejen snížit náklady a zlepšit efektivitu, ale také umožnit lidem soustředit se na kreativnější, strategičtější a mezilidské úkoly.
„Pro spotřebitele se AI vyvíjí z jednoduchého asistenta na spolehlivý osobní manažer, který bude schopen zvládnout složité životní úkoly – jako je plánování cestování, monitorování zdraví nebo správa finančních portfolií – během dní nebo týdnů s minimálním dohledem,“ dodal Watson.
Ve skutečnosti by schopnost AIS zvládnout širokou škálu zdlouhavých úkolů by mohla mít významný dopad na to, jak společnost interaguje a používá AI v příštích několika letech.
„Zatímco specializované nástroje AI budou přetrvávat ve specializovaných aplikacích z důvodů účinnosti, výkonní agenti AI – schopni flexibilně přepínat mezi různými úkoly – se objeví výrazně,“ uzavřel Watson. „Tyto systémy budou integrovat specializované dovednosti do širších, cílených pracovních postupů, které sestavují každodenní a profesní praktiky základem.“