Roboti dostávají hlavní inteligenci díky „Thinking AI“ Google DeepMind – pár modelů, které pomáhají strojům porozumět světu

Google Deepmind odhalil pár Umělá inteligence (AI) Modely, které robotům umožní provádět složité obecné úkoly a rozum způsobem, který byl dříve nemožný.
Začátkem tohoto roku společnost odhalila první iteraci Gemini Robotics, modelu AI založeného na jeho modelu velkého jazyka Gemini (LLM) – ale specializovaná na robotiku. To umožnilo strojům uvažovat a provádět jednoduché úkoly ve fyzických prostorech.
Základní příklad Google ukazuje na banánový test. Původní model AI byl schopen obdržet jednoduchou instrukci, jako je „Umístěte tento banán do koše“ a vést robotickou ruku k dokončení tohoto příkazu.
Robot, který je poháněn dvěma novými modely, může nyní vzít výběr ovoce a třídit je do jednotlivých kontejnerů na základě barvy. V jedné demonstraci pár robotických zbraní (robot společnosti Aloha 2) přesně třídí banán, jablko a vápno na tři talíře vhodné barvy. Robot dále vysvětluje v přirozeném jazyce, co dělá a proč, jak vykonává úkol.
„Umožňujeme to myslet,“ řekl Jie Tanve videu vědec ve vyšších zaměstnancích ve společnosti Deepmind. „Může vnímat životní prostředí, myslet krok za krokem a pak dokončit tento vícestupňový úkol. Ačkoli se tento příklad zdá velmi jednoduchý, myšlenka za ním je opravdu silná. Stejný model bude moci sofistikovanější humanoidní roboty dělat složitější denní úkoly.“
Robotika zítřka poháněná AI
I když se demonstrace může zdát jednoduchá na povrchu, ukazuje řadu sofistikovaných schopností. Robot může prostorově lokalizovat ovoce a talíře, identifikovat ovoce a barvu všech objektů, odpovídat ovoci destičkám podle sdílených charakteristik a poskytnout výstup přirozeného jazyka popisující jeho uvažování.
Je to vše možné kvůli způsobu, jakým interagují nejnovější iterace modelů AI. Pracují spolu stejným způsobem jako vedoucí a pracovník.
Google Robotics-ER 1.5 („Brain“) je model jazyka zraku (VLM), který shromažďuje informace o prostoru a objektech umístěných v něm, zpracovává příkazy přirozeného jazyka a může využívat pokročilé uvažování a nástroje k odesílání pokynů na Google Robotics 1.5 („Ruce a oči“), vize-jazyk (VLA). Google Robotics 1.5 odpovídá těmto pokynům svému vizuálnímu porozumění prostoru a před jejich provedením vytvoří plán a poskytuje zpětnou vazbu o svých procesech a uvažování v celém světě.
Oba modely jsou schopnější než předchozí verze a mohou používat nástroje, jako je vyhledávání Google, k dokončení úkolů.
Tým prokázal tuto kapacitu tím, že výzkumný pracovník požádal Aloha, aby použila pravidla recyklace na základě jejího umístění k třídění některých objektů do kompostu, recyklace a koše. Robot uznal, že uživatel byl umístěn v San Franciscu a našel na internetu pravidla recyklace, aby mu pomohl přesně třídit odpadky do příslušných nádob.
Dalším pokrokem zastoupeným v nových modelech je schopnost učit se (a aplikovat toto učení) napříč několika robotickými systémy. Zástupci Deepmind uvedli v a prohlášení To, že jakékoli učení získané přes jeho robot Aloha 2 (pár robotických zbraní), robot Apollo humanoidní a robot s bi-ramenem Franka lze použít na jakýkoli jiný systém kvůli zobecněnému způsobu, jakým se modely učí a vyvíjejí.
„Roboti s generálním účelem potřebují hluboké porozumění fyzickému světu, pokročilému uvažování a obecné a obratné kontrole,“ řekl v týmu Gemini Robotics v a Technická zpráva na nových modelech. Tento druh generalizovaného uvažování znamená, že modely se mohou přiblížit k problému se širokým porozuměním fyzických prostorů a interakcí a řešením problémů, což odpovídajícím způsobem rozděluje úkoly na malé, jednotlivé kroky, které lze snadno provést. To kontrastuje s dřívějšími přístupy, které se spoléhaly na specializované znalosti, které se vztahovaly pouze na velmi specifické, úzké situace a jednotlivé roboty.
Vědci poskytli další příklad toho, jak by roboti mohli pomoci ve scénáři v reálném světě. Představili robota Apollo se dvěma košemi a požádali ho, aby třídilo oblečení podle barvy – s bílými do jednoho koše a další barvy do druhého. Poté přidali další překážku, když úkol postupoval tím, že přesunul oblečení a koše, což přinutilo robota, aby přehodnotil fyzický prostor a odpovídajícím způsobem reagoval, který úspěšně zvládl.