Vědci tvrdí, že odstranili hlavní překážku umělé inteligence – nyní mohou zpracovávat výpočty „rychlostí světla“

Vědci vyvinuli základní architekturu pro optické výpočty nové generace – využívající k napájení čipů spíše světlo než elektřinu – která by mohla způsobit revoluci v tom, jak umělá inteligence (AI) modely jsou trénovány a prováděny.
V srdci velkých jazykových modelů (LLM) a těch, které jsou založeny na hlubokém učení, leží vážená organizační struktura zvaná „tensor“, která funguje jako kartotéka s lepicími papírky, které udávají, které zásuvky jsou nejpoužívanější.
Když je model umělé inteligence trénován k provádění úkolu nebo funkce, jako je rozpoznání obrázku nebo predikce textového řetězce, třídí data do těchto tenzorů. V moderních systémech umělé inteligence je rychlost, s jakou modely dokážou zpracovávat data tenzoru – nebo třídit v kartotékách – základním omezením výkonu, které představuje pevný limit toho, jak velký se model může stát.
V typickém světle založeném počítání modely analyzují tenzory několikanásobným vypálením laserových polí. Fungují jako stroj, který skenuje čárový kód na obalu, aby určil jeho obsah, až na to, že v tomto případě každý kontejner odkazuje na matematický problém. Množství výpočetního výkonu, které je zapotřebí k rozdrcení těchto čísel, závisí na přirozených schopnostech modelů.
Přestože výpočetní technika založená na světle je rychlejší a energeticky účinnější v menších měřítcích, většinu optických systémů nelze provozovat paralelně. Na rozdíl od grafických procesorových jednotek (GPU), které mohou být zřetězeny, aby se exponenciálně zvýšilo množství a dostupnost výpočetního výkonu, jsou systémy založené na světle obvykle provozovány lineárně. Z tohoto důvodu většina vývojářů upouští od optických výpočtů ve prospěch výhod paralelního zpracování zvýšeného výkonu v měřítku.
Toto škálovatelné úzké hrdlo je důvodem, proč nejvýkonnější modely vytvořené společnostmi jako OpenAI, Anthropic, Google a xAI vyžadují k trénování a provozu tisíce GPU běžících v tandemu.
Ale nová architektura, nazvaná Parallel Optical Matrix-Matrix Multiplication (POMMM), by mohla vyvrátit problém, který brzdí optické výpočty. Na rozdíl od předchozích optických metod provádí více tenzorových operací současně pomocí jediného laserového výbuchu.
Výsledkem je základní návrh hardwaru AI s potenciálem škálovat rychlost zpracování tenzoru daného systému AI nad rámec nejmodernějších možností elektronického hardwaru a zároveň snížit jeho energetickou stopu.
Optické výpočty a hardware nové generace
Studie zveřejněná 14. listopadu v časopise Fotonika přírodypodrobně popisuje výsledky experimentálního optického výpočetního prototypu spolu se sérií srovnávacích testů se standardními schématy optického a GPU zpracování.
Vědci použili specifické uspořádání konvenčních optických hardwarových komponent spolu s novou metodou kódování a zpracování k zachycení a analýze tenzorových balíčků v jediném laserovém výstřelu.
Podařilo se jim zakódovat digitální data do amplitudy a fáze světelných vln a přeměnit data na fyzikální vlastnosti v optickém poli – tyto světelné vlny se kombinují a provádějí matematické operace, jako je maticové nebo tenzorové násobení.
Tyto optické operace nevyžadují ke zpracování v tomto paradigmatu další energii, protože k nim dochází pasivně, když se světlo šíří. To eliminuje potřebu ovládání nebo přepínání během zpracování, stejně jako energii potřebnou k provádění těchto funkcí.
„Tento přístup lze implementovat na téměř jakékoli optické platformě,“ řekl vedoucí autor studie Zhipei Sun, vedoucí Photonics Group na Aalto University. prohlášení. „V budoucnu plánujeme integrovat tento výpočetní rámec přímo do fotonických čipů, což umožní procesorům založeným na světle provádět složité úkoly umělé inteligence s extrémně nízkou spotřebou energie.“
Zhang odhaduje, že tento přístup by mohl být integrován do hlavních platforem umělé inteligence během tří až pěti let.
Umělý akcelerátor obecné inteligence
Zástupci to popsali jako krok k nové generaci umělé obecné inteligence (AGI) – hypotetickému budoucímu systému umělé inteligence, který je chytřejší než lidé a dokáže se obecně učit napříč více obory, nezávisle na svých tréninkových datech.
Zhang v prohlášení dodal: „To vytvoří novou generaci optických výpočetních systémů, které výrazně urychlí složité úkoly umělé inteligence v mnoha oblastech.“
I když se v samotném článku konkrétně nezmiňuje AGI, několikrát se odkazuje na obecné výpočty.
Názor, že škálování současných vývojových technik umělé inteligence je schůdnou cestou k dosažení AGI, je mezi určitými sektory komunity počítačových věd tak všudypřítomný, že si můžete koupit trička prohlašující, že „škálování je vše, co potřebujete.“
Jiní vědci, jako je odcházející šéf AI společnosti Meta Yann LeCunnesouhlasí s tím, že LLM – současná architektura umělé inteligence zlatého standardu – nikdy nedosáhnou statusu AGI bez ohledu na to, jak daleko a hluboko se škálují.
S POMMM vědci říkají, že mohou mít kritický kousek hardwarové skládačky, která je potřebná k odstranění jednoho z největších překážek v oboru, což vývojářům umožní škálovat daleko za základní limity současného paradigmatu.



