Vědci odhalí skryté ingredience za kreativitou AI

Kdysi jsme byli slíbeni Automobily s vlastním pohonem a robotické služky. Místo toho jsme viděli vzestup Umělá inteligence Systémy, které nás mohou porazit v šachu, analyzovat obrovské množství textu a skládat sonety. To bylo jedno z velkých překvapení moderní éry: fyzické úkoly, které jsou pro lidi snadné, jsou pro roboty velmi obtížné, zatímco algoritmy jsou stále více schopny napodobovat náš intelekt.
Dalším překvapením, které má dlouho zmatené vědci, je talent těchto algoritmů pro jejich vlastní, podivný druh kreativity.
Difúzní modely, páteř nástrojů pro generování obrázků, jako je Dall · E, Imagen a stabilní difúze, jsou navrženy tak, aby generovaly kopie uhlíkových obrázků, na nichž byly vyškoleny. Zdá se však, že v praxi improvizují, mísí prvky v rámci obrázků, aby vytvořily něco nového – nejen nesmyslné kuličky barvy, ale koherentní obrazy se sémantickým významem. Toto je „paradox“ za difúzními modely, řekl Giulio birali, Výzkumník AI a fyzik na École Normale Supérieure v Paříži: „Pokud by fungovali perfektně, měli by si jen zapamatovat,“ řekl. „Ale ne – jsou vlastně schopni produkovat nové vzorky.“
Generovat obrázky, Difúzní modely používají proces známý jako denoising. Převádějí obraz na digitální šum (nesoudržný sbírku pixelů) a poté jej znovu sestavují. Je to jako opakovaně prokládat malbu skrz drtidlo, dokud vše, co opustíte, je hromada jemného prachu a potom kousky opravte zpět dohromady. Po celá léta vědci přemýšleli: Pokud se modely právě znovu sestavují, jak se na obrázek přichází novinka? Je to jako opětovné sestavení skartovaného obrazu do zcela nového uměleckého díla.
Nyní dva fyzici učinili překvapivé tvrzení: jsou to technické nedokonalosti samotného procesu denoizingu, které vede k kreativitě difúzních modelů. V a papír To bude představeno na Mezinárodní konferenci o strojovém učení 2025, duo vyvinulo matematický model vyškolených difúzních modelů, který ukazuje, že jejich takzvaná kreativita je ve skutečnosti deterministickým procesem-přímým, nevyhnutelným důsledkem jejich architektury.
Osvětlením černé skříňky difúzních modelů by nový výzkum mohl mít velké důsledky pro budoucí výzkum AI – a možná i pro naše chápání lidské kreativity. „Skutečnou silou papíru je, že dělá velmi přesné předpovědi něčeho velmi netriviálního,“ řekl Luca Ambrogionipočítačový vědec na Radboud University v Nizozemsku.
Mason KambPostgraduální student, který studuje aplikovanou fyziku na Stanfordské univerzitě a hlavní autor nového příspěvku, byl již dlouho fascinován morfogenezí: procesy, kterými se živé systémy samy sestavují.
Jedním ze způsobů, jak porozumět vývoji embryí u lidí a jiných zvířat, je to, co se nazývá a Turing vzorpojmenován po matematici 20. století Alan Turing. Turingové vzorce vysvětlují, jak se skupiny buněk mohou organizovat do odlišných orgánů a končetin. Je důležité, že tato koordinace se koná na místní úrovni. Neexistuje žádný generální ředitel, který by dohlížel na biliony buněk, aby se ujistil, že se všichni přizpůsobují konečnému plánu těla. Jinými slovy jednotlivé buňky nemají nějaký dokončený plán těla, na kterém lze založit svou práci. Jen jedná o opatření a provádějí opravy v reakci na signály od svých sousedů. Tento systém zdola nahoru obvykle běží hladce, ale občas se zhoršuje-například produkuje ruce dalšími prsty.
Když se první obrazy generované AI začaly rozvíjet online, mnozí vypadali jako surrealistické obrazy a zobrazují lidi dalšími prsty. Tito okamžitě přiměli Kamb myslet na morfogenezi: „Vonělo to jako selhání, které byste očekávali od (zdola nahoru) systému,“ řekl.
Vědci AI věděl Do té chvíle, že difúzní modely berou při generování obrázků několik technických zkratky. První je známý jako lokalita: věnují pozornost pouze jedné skupině nebo „patch“ pixelů najednou. Druhým je, že při generování obrázků dodržují přísné pravidlo: pokud posunete vstupní obrázek pouze o pár pixelů v libovolném směru, například systém se automaticky upraví tak, aby provedl stejnou změnu obrazu, který generuje. Tato vlastnost, nazývaná translační ekvivariance, je způsob modelu zachování koherentní struktury; Bez něj je mnohem obtížnější vytvářet realistické obrazy.
Zčásti kvůli těmto funkcím difúzní modely nevěnují žádnou pozornost tomu, kde se konkrétní oprava zapadá do konečného obrazu. Zaměřují se pouze na generování jedné záplaty najednou a poté je automaticky zapadají na místo pomocí matematického modelu známého jako funkce skóre, který lze považovat za digitální turingový vzorec.
Vědci dlouho považovali lokalitu a ekvivarianci za pouhá omezení procesu denoisingu, technické výstřednosti, které bránily difúzním modelům vytvářet dokonalé repliky obrázků. Nesdružovali je s kreativitou, která byla považována za jev vyššího řádu.
Byli na další překvapení.
Vyrobeno lokálně
Kamb zahájil svou postgraduální práci v roce 2022 v laboratoři Surya GanguliFyzik ve Stanfordu, který má také schůzky v neurobiologii a elektrotechnice. OpenAI vydal Chatgpt ve stejném roce a způsobil nárůst zájmu v poli, nyní známý jako generativní AI. Když techničtí vývojáři pracovali na budování stále více výkonných modelů, mnoho akademiků zůstalo fixováno na pochopení vnitřních fungování těchto systémů.
Za tímto účelem si Kamb nakonec vyvinul hypotézu, že lokalita a ekvivariance vedou k kreativitě. To vyvolalo tantalizující experimentální možnost: Pokud by mohl vymyslet systém, aby nedělal nic jiného než optimalizovat pro lokalitu a ekvivarianci, měl by se chovat jako difúzní model. Tento experiment byl jádrem jeho nového příspěvku, který napsal s Ganguli jako jeho spoluautorem.
Kamb a Ganguli nazývají svůj systém strojem Ekvivariantní místní skóre (ELS). Nejedná se o vyškolený difúzní model, ale spíše sada rovnic, které mohou analyticky předpovídat složení denovizovaných obrazů pouze na základě mechaniky lokality a ekvivariance. Poté pořídili řadu obrázků, které byly přeměněny na digitální hluk, a provedly je jak strojem ELS, tak řadou výkonných difúzních modelů, včetně resnetů a UNET.
Výsledky byly „šokující“, řekl Ganguli: V celé desce byl stroj ELS schopný identicky porovnat výstupy vyškolených difúzních modelů s průměrnou přesností 90% – výsledkem je „neslýchaná ve strojovém učení“, řekl Ganguli.
Zdá se, že výsledky podporují hypotézu Kamb. „Jakmile uložíte lokalitu, (kreativita) byla automatická; vypadla z dynamiky zcela přirozeně,“ řekl. Samotné mechanismy, které omezovaly okno pozornosti difúzních modelů během procesu denoisingu – nutí je, aby se zaměřili na jednotlivé záplaty, bez ohledu na to, kam by se nakonec zapadali do finálního produktu – jsou stejné, které umožňují jejich kreativitu. Fenomén extra prstů, který byl pozorován u difúzních modelů, byl podobně přímým vedlejším produktem hyperfixace modelu pro generování místních skvrn pixelů bez jakéhokoli širšího kontextu.
Odborníci, s nimiž se tento příběh dotazoval, obecně souhlasili s tím, že ačkoli papír Kamb a Ganguli osvětluje mechanismy kreativity v difúzních modelech, zůstává mnoho záhadných. Zdá se například, že velké jazykové modely a další systémy AI vykazují kreativitu, ale nevyužívají lokalitu a ekvivarianci.
„Myslím, že je to velmi důležitá součást příběhu,“ řekl Biroli, „(ale) to není celý příběh.“
Vytváření kreativity
Vědci poprvé ukázali, jak lze kreativitu difúzních modelů považovat za vedlejší produkt samotného denoisingového procesu, který lze matematicky a předvídat s nebývale vysokou přesností. Je to téměř jako by neurovědci vložili skupinu lidských umělců do MRI stroje a našli za svou kreativitou společný nervový mechanismus, který by mohl být zapsán jako soubor rovnic.
Srovnání s neurovědou může přesahovat pouhou metaforu: Kamb a Ganguliho práce by také mohly poskytnout vhled do černé skříňky lidské mysli. „Lidská a AI kreativita nemusí být tak odlišná,“ řekl Benjamin Hoover, výzkumný pracovník strojového učení v Georgia Institute of Technology a výzkum IBM Who Who studie Difúzní modely. „Shromáždíme věci na základě toho, co zažíváme, o čem jsme snili, co jsme viděli, slyšeli nebo touželi. Lidská i umělá kreativita by podle tohoto názoru mohla být zásadně zakořeněna v neúplném porozumění světu: všichni se snažíme vyplnit mezery podle našich znalostí a občas a pak vytváříme něco, co je nové a cenné. Možná tomu říkáme kreativitu.
Původní příběh přetištěný se svolením Kolik časopisuRedaktně nezávislá publikace podporovaná nadací Simons.



