věda

Google DeepMind se naučil hrát Minecraft

Systém umělé inteligence (AI) poprvé přišel na to, jak sbírat diamanty v nesmírně populární videohře Minecraft– Obtížný úkol vyžadující více kroků – bez zobrazení, jak hrát. Jeho tvůrci říkají, že systém, nazývaný Dreamer, je krokem ke strojům, které mohou zobecnit znalosti učit se v jedné doméně do nových situací, a Hlavní cíl AI.

„Dreamer označuje významný krok k obecným systémům AI,“ říká Danijar Hafner, počítačový vědec společnosti Google Deepmind v San Franciscu v Kalifornii. „Umožňuje AI porozumět jeho fyzickému prostředí a také se v průběhu času zlepšit, aniž by to člověk musel přesně říct, co dělat.“ Hafner a jeho kolegové popisují Snílek Ve studii Příroda Publikováno 2. dubna.

V MinecraftHráči prozkoumávají virtuální 3D svět obsahující různé terény, včetně lesů, hor, poušť a bažin. Hráči používají světové zdroje k vytváření objektů, jako jsou truhly, ploty a meče – a shromažďují předměty, z nichž nejcennější jsou diamanty.


O podpoře vědecké žurnalistiky

Pokud se vám tento článek líbí, zvažte podporu naší oceněné žurnalistiky předplatné. Zakoupením předplatného pomáháte zajistit budoucnost působivých příběhů o objevech a myšlenkách, které dnes formují náš svět.


Důležité je, říká Hafner, žádné dvě zkušenosti nejsou stejné. „Pokaždé, když hraješ.“ MinecraftJe to nový, náhodně generovaný svět, “říká. Díky tomu je užitečný pro zpochybnění systému AI, který vědci chtějí být schopni zobecnit z jedné situace na druhou.„ Musíte opravdu pochopit, co je před vámi; Nemůžete si jen zapamatovat konkrétní strategii, “říká.

Sbírání diamantu je „velmi těžký úkol“, říká počítačový vědec Jeff Clune na University of British Columbia ve Vancouveru v Kanadě, který byl součástí samostatného týmu, který trénoval program pro program Najděte diamanty pomocí videí lidské hry. „Není pochyb o tom, že to představuje hlavní krok vpřed pro pole.“

Diamanty jsou navždy

Ai Vědci se zaměřili na hledání diamantůŘíká Hafner, protože to vyžaduje řadu komplikovaných kroků, včetně nalezení stromů a jejich rozbití, aby shromažďovaly dřevo, které mohou hráči použít k vytvoření řemeslného stolu.

To, spolu s více dřevem, lze použít k výrobě dřevěného pickaxe – a tak dále, dokud hráči neshromáždí správné nástroje pro sbírání diamantu, který je pohřben hluboko pod zemí. „Je tu dlouhý řetězec těchto milníků, a tak to vyžaduje velmi hluboký průzkum,“ říká.

Předchozí pokusy přimět systémy AI ke sběru diamantů se spoléhaly na používání videí lidské hry nebo výzkumných pracovníků, kteří vedou systémy prostřednictvím kroků.

Naproti tomu Dreamer zkoumá vše o hře samo o sobě, pomocí techniky pokusů a omylu s názvem Posílení učení-identifikuje akce, které pravděpodobně vyvolávají odměny, opakují je a zahodí ostatní. Posílení učení podporuje některé Hlavní pokroky v AI. Předchozí programy však byly specialisté – nemohli aplikovat znalosti v nových oblastech od nuly.

Postavte mi světový model

Klíčem k úspěchu Dreamera, říká Hafner, je to, že vytváří model svého okolí a používá tento „světový model“ k „představení“ budoucích scénářů a vedení rozhodování. Spíše jako naše vlastní abstraktní myšlenky, světový model není přesnou replikou svého okolí. Ale umožňuje agentovi snílek vyzkoušet věci a předpovídat potenciální odměny různých akcí pomocí menšího výpočtu, než by bylo nutné k dokončení těchto akcí v Minecraft. „Světový model opravdu vybavuje systém AI schopností představit si budoucnost,“ říká Hafner.

Tato schopnost by také mohla pomoci vytvořit roboty, které se mohou naučit interagovat ve skutečném světě – kde jsou náklady na pokus a omyl mnohem vyšší než ve videohře, říká Hafner.

Testování Dreamera na Diamond Challenge bylo promyšlené. „Postavili jsme celý tento algoritmus bez toho,“ říká Hafner. Tým se však stalo, že to byl ideální způsob, jak otestovat, zda jeho algoritmus může fungovat, mimo krabici, na neznámý úkol.

V MinecraftTým použil protokol, který Dreamerovi poskytl odměnu „plus jednu“ pokaždé, když dokončil jeden z 12 progresivních kroků zapojených do diamantové sběru – včetně vytváření prken a pece, těžby železa a kování železa.

Tyto střední odměny přiměly Dreamera k výběru akcí, které s větší pravděpodobností povedou k diamantu. Tým resetuje hru každých 30 minut, takže Dreamer si na jednu konkrétní konfiguraci nezvykne – ale spíše se naučila obecná pravidla pro získání odměn.

Podle tohoto nastavení trvá asi devět dní nepřetržité hry pro Dreamer, aby našel alespoň jeden diamant, říká Hafner. Odborné lidské hráče budou trvat 20–30 minut, než najdou diamant, zatímco nováčci trvají déle.

„Tento dokument je o tréninku jediného algoritmu, který se dobře chová napříč různými úkoly zesílení učení,“ říká počítačový vědec Keyon Vafa na Harvardské univerzitě v Bostonu v Massachusetts. „Je to notoricky tvrdý problém a výsledky jsou fantastické.“

Ještě větší cíl pro AI, říká Clune, je konečnou výzvou pro Minecraft Hráči: Zabíjení Endera Draka, nejobávanějšího stvoření virtuálního světa.

Tento článek je reprodukován se svolením a byl poprvé publikováno 2. dubna 2025.

Zdrojový odkaz

Related Articles

Back to top button