Nová architektura AI „Dragon Hatchling“ modelovaná podle lidského mozku by mohla být klíčovým krokem k AGI, tvrdí vědci

Výzkumníci navrhli nový typ modelu velkého jazyka (LLM), který by podle nich mohl překlenout propast mezi nimi umělá inteligence (AI) a více lidskému poznání.
Model nazvaný „Dragon Hatchling“ je navržen tak, aby přesněji simuloval, jak se neurony v mozku propojují a posilují prostřednictvím naučených zkušeností, tvrdí vědci z AI startupu Pathway, který model vyvinul. Popsali jej jako první model schopný „generalizovat v průběhu času“, což znamená, že dokáže automaticky upravit své vlastní nervové zapojení v reakci na nové informace.
„V současné době probíhá mnoho diskusí o konkrétně modelech uvažování, syntetických modelech uvažování, zda jsou schopny rozšířit uvažování nad rámec vzorů, které viděli při uchovávání dat, zda jsou schopny zobecnit uvažování na složitější vzorce uvažování a delší vzorce uvažování,“ Adrian Kosowskiřekl spoluzakladatel a hlavní vědecký ředitel Pathway podcast SuperDataScience dne 7. října.
„Důkazy jsou z velké části neprůkazné, s obecným ‚ne‘ jako odpovědí. V současnosti stroje nezobecňují uvažování jako lidé, a to je velká výzva, kde věříme, že (ta) architektury, které navrhujeme, mohou přinést skutečný rozdíl.“
Krok k AGI?
Učí AI myslet jako lidé je jedním z nejvíce ceněných gólů v této oblasti. Přesto dosažení této úrovně simulovaného poznání – často označovaného jako umělá obecná inteligence (AGI) — zůstává nepolapitelný.
Klíčovou výzvou je, že lidské myšlení je ze své podstaty chaotické. Naše myšlenky k nám zřídka přicházejí v úhledných, lineárních sekvencích spojených informací. Místo toho, lidský mozek je spíše jako chaotická spleť překrývajících se myšlenek, pocitů, emocí a impulsů, které neustále soupeří o pozornost.
V posledních letech LLM posunuly průmysl AI mnohem blíže k simulaci lidského uvažování. LLM jsou obvykle řízeny modely transformátorů (transformátory), druh hluboké učení rámec, který umožňuje modelům umělé inteligence propojovat slova a myšlenky během konverzace. Transformers jsou „mozky“ za generativními nástroji AI, jako jsou ChatGPTGemini a Claude, což jim umožňuje komunikovat s uživateli a reagovat na ně s přesvědčivou úrovní „uvědomění“ (alespoň většinou).
Přestože jsou transformátory extrémně sofistikované, představují také hranici stávajících generativních schopností umělé inteligence. Jedním z důvodů je proto neučí se nepřetržitě; jakmile je LLM vyškolen, parametry, kterými se řídí, jsou uzamčeny, což znamená, že jakékoli nové znalosti je třeba přidat prostřednictvím přeškolení nebo doladění. Když se LLM setká s něčím novým, jednoduše vygeneruje odpověď na základě toho, co již zná.
Představte si draka
Dragon Hatchling je na druhé straně navržen tak, aby dynamicky přizpůsoboval své chápání nad rámec svých tréninkových dat. Dělá to tak, že aktualizuje svá vnitřní připojení v reálném čase, když zpracovává každý nový vstup, podobně jako jak neurony posilují nebo oslabují časem. To by mohlo podpořit pokračující učení, řekli vědci.
Na rozdíl od typických transformátorových architektur, které zpracovávají informace sekvenčně přes naskládané vrstvy uzlů, se architektura Dragon Hatchling chová spíše jako flexibilní web, který se reorganizuje, když se objeví nové informace. Drobné „neuronové částice“ si neustále vyměňují informace a upravují svá spojení, některé posilují a jiné oslabují.
Postupem času se formují nové cesty, které modelu pomáhají uchovat si to, co se naučil, a aplikovat to na budoucí situace, což mu efektivně dává jakousi krátkodobou paměť, která ovlivňuje nové vstupy. Na rozdíl od tradičních LLM však paměť Dragon Hatchling pochází z neustálých úprav v jeho architektuře, spíše než z uloženého kontextu v jeho trénovacích datech.
V testech si Dragon Hatchling vedl podobně jako GPT-2 v úlohách srovnávacího jazykového modelování a překladu – působivý výkon pro zcela novou prototypovou architekturu, poznamenal tým ve studii.
Přestože dokument ještě musí být recenzován, tým doufá, že model by mohl sloužit jako základní krok směrem k systémům umělé inteligence, které se učí a přizpůsobují se autonomně. Teoreticky by to mohlo znamenat Modely AI, které jsou chytřejší čím déle zůstanou online – v dobrém i zlém.



