věda

Disney a OpenAI signalizují příchod AI Video Streaming

Nedávno jsem vyhledal nejstarší dochovaný film, Scéna ze zahrady Roundhay, který pochází z roku 1888. Čtyři postavy, dva muži a dvě ženy, obcházejí dvůr rychlými, trhavými kroky. Trvá to asi dvě sekundy.

Nedávno jsem také sledoval některé klipy natočené v roce 2016 výzkumníky z Massachusetts Institute of Technology a University of Maryland, které patří mezi první plně umělou inteligencí generovaná videa. Každá je dlouhá asi sekundu. V jednom stojí rozmazaná postava na golfovém greenu, v pase prohnutá k patování. Nikdo by si tato videa nespletl resp Scéna ze zahrady Roundhay pro slizké realismus současné kinematografie. A stejně jako se skeptici často vysmívají videu AI jako plýtvání, kritici 19. století odmítají ranou kinematografii jako „hloupá zvědavost.“

Přesto nedávná dohoda mezi Disney a OpenAI nabízí pohled do jiné budoucnosti. Počínaje začátkem roku 2026, technologická společnost video generátor Sora bude moci vytvářet videa s více než 200 postavami od společností Disney, Marvel, Pixar a dalších Hvězdné války franšíza. A Disney+ bude streamovat výběr klipů vytvořených uživateli.


O podpoře vědecké žurnalistiky

Pokud se vám tento článek líbí, zvažte podporu naší oceňované žurnalistiky předplatné. Zakoupením předplatného pomáháte zajistit budoucnost působivých příběhů o objevech a nápadech, které formují náš dnešní svět.


Disney také investuje 1 miliardu dolarů do OpenAI a použije její nástroje k vybudování „nových zážitků pro předplatitele Disney+“, uvádí Společná tisková zpráva Disney a OpenAI. Generální ředitel společnosti Disney Robert Iger při oznámení partnerství řekl, že společnost „promyšleně a zodpovědně rozšíří dosah našeho vyprávění prostřednictvím generativní umělé inteligence“. V nedávném konferenčním hovoru o výdělcích také řekl, že má v úmyslu, aby předplatitelé vytvářeli obsah v rámci samotného Disney+. Pokud chcete sledovat, jak Elsa a Popelka sundávají Maleficent, budete se moci zeptat na scénu – i když může trvat jen 20 sekund.

Pokud je to začátek AI TV na vyžádání, zajímalo by mě, jak dlouho to bude trvat, než tyto klipy dosáhnou 20 minut nebo hodiny, vzhledem k zátěži životního prostředí a nákladům na výpočetní techniku. Spousta lidí věří, že je to nemožné, ale myslím si, že jen málo z těch, kteří to sledovali Scéna ze zahrady Roundhay předvídal Velká vlaková loupež, 12minutový milník němé kinematografie z roku 1903, mnohem méně Pryč s větrem– nebo streamování.

Výzva generování obrazu spočívá v tom, jak fungují dnešní systémy. Jsou postaveny na difúzi, technice, která začíná „šumem“, který se postupně zdokonaluje v obraz. Představte si obraz člověka stojícího v mlze. AI v podstatě odstraňuje mlhu a vkládá nové pixely v opakovaných průchodech, dokud se neobjeví koherentní obrazec. Každý průchod k upřesnění generovaného obrazu zvyšuje náklady.

Video je ještě náročnější. Série obrázků musí být sladěna tak, aby se nezměnily rysy obličeje a nezmizely hrnky na kávu. Za jednu sekundu videa ve vysokém rozlišení se změní miliony pixelů. Během a hlavní řeč na hackathonu pořádaném komunitním centrem AI AGI House Bill Peebles, výzkumník OpenAI, který pomohl vyvinout Sora, řekl: „Zjistili jsme, jak bolestivé je pracovat s video daty. V těchto videích je hodně pixelů.“

Chcete-li spravovat pixely, Systém OpenAI komprimuje video do zjednodušené verze, která uchovává důležité informace. Pak s ním zachází jako s bochníkem chleba – krájí ho na rámečky, které pak rozděluje na kostky. To umožňuje modelu vzájemně koordinovat všechny kostky, podobně jako modely, které pohánějí ChatGPT, spojují všechna slova v odpovědi.

Skok ze sekund na minuty je tak trestuhodný, protože čím více snímků přidáte, tím více informací musí model mít na očích. Jak se videa prodlužují, hromadí se nekonzistence. Skutečná AI TV „na vyžádání“ by také vyžadovala střihy mezi scénami. Pokud by to každý uživatel Disney+ požadoval s krátkodobou technologií, náklady by byly ohromující.

Výzkumníci hledali efektivnější přístupy. Jedním z nich je, aby model rozdělil práci na etapy. „Místo odšumování nebo generování celého videa najednou, generujete snímek po snímku,“ říká Tianwei Yin, vědecký pracovník ve start-upu Reve pro úpravu obrázků AI, který se podílel na vývoji Software pro generování videa CausVid. „V každém kroku je váš výpočet omezen na mnohem menší část namísto celé věci, což vám umožňuje jít mnohem déle.“

Yin věří, že systémy do příštího roku efektivněji dosáhnou pěti minut generování a že díky integraci různých existujících technologií umělé inteligence by mohly dosáhnout hodiny nedlouho poté. Ostatní tento optimismus zopakovali. V nedávném rozhovor BBCGenerální ředitel společnosti Google Sundar Pichai popsal možnost středoškolských studentů natáčet celovečerní filmy s umělou inteligencí v příštích letech. Řekl Cristóbal Valenzuela, generální ředitel společnosti Runway, která vyrábí AI videa Země počátkem tohoto měsíce „Mít 60 nebo 90 minut s konzistentními postavami a příběhem stále není možné. Ale brzy to bude.“ Dále řekl, že na obzoru je také sledování AI videí, jak jsou generována v reálném čase.

Cesta od kurátorských fanouškovských klipů k celovečerním filmům povede několika neokázalými inovacemi, nemluvě o vyjednávání o tom, jak zaplatit kreativce, jejichž práce to živí. A přestože se zdá, že finanční zátěž videí s umělou inteligencí je neúnosná, miliony lidí na celém světě se podílejí na výrobě a školení modelů umělé inteligence a náklady na technologie obvykle klesají. Například v roce 1998 byla šířka pásma neúměrně drahá – stálo to asi 1 200 $ za megabit za sekundu (Mb/s) měsíčně pro velké sítě – ale do roku 2025 byly nejnižší hlášené náklady 0,05 $ za Mbps měsíčněpokles o 99,996 procenta. Tato změna umožnila streamování na Disney+ nebo Netflix.

Kulturní cestu nových médií je mnohem těžší si představit a odpor je často intenzivní. Básník Charles Baudelaire nadával proti fotografování v roce 1859 pro jeho líný realismus, který odvlekl umění z představivosti. V minulých stoletích „skeptici a partyzáni přirovnávali fotografii k malbě a pohyblivé obrázky k divadlu“. napsal dnešní učenec Reuben de Lautour. Zdá se, že jsme v ještě více komplikovaný okamžik. Zdá se jisté, že stejně jako v minulosti to bude technologie rychle se vyvíjetumožňuje milionům tvůrců otestovat možnosti, které zatím nedokážeme předvídat.

Je čas postavit se za vědu

Pokud se vám tento článek líbil, rád bych vás požádal o podporu. Scientific American sloužil jako obhájce vědy a průmyslu již 180 let a právě teď může nastat nejkritičtější okamžik v této dvousetleté historii.

Byl jsem a Scientific American předplatitel od mých 12 let a pomohlo mi to utvářet můj pohled na svět. SciAm vždy mě vzdělává a těší a vzbuzuje úctu k našemu obrovskému, krásnému vesmíru. Doufám, že to udělá i vám.

Pokud vy přihlásit se k odběru Scientific Americanpomáháte zajistit, aby se naše pokrytí soustředilo na smysluplný výzkum a objevy; že máme zdroje na podávání zpráv o rozhodnutích, která ohrožují laboratoře v USA; a že podporujeme začínající i pracující vědce v době, kdy hodnota samotné vědy příliš často zůstává nepoznaná.

Na oplátku získáte zásadní zprávy, strhující podcastyskvělá infografika, nepřehlédnutelné newsletteryvidea, která musíte vidět, náročné hrya nejlepší vědecké psaní a zpravodajství. Můžete dokonce darovat někomu předplatné.

Nikdy nebyl důležitější čas, abychom vstali a ukázali, proč na vědě záleží. Doufám, že nás v této misi podpoříte.

Zdrojový odkaz

Related Articles

Back to top button