Model OpenAI vydělává skóre zlaté medaile na mezinárodní matematické olympiádě a postupuje na cestu k umělé obecné inteligenci

Několik měsíců před Mezinárodní matematickou olympiádou (IMO) v roce 2025 v červenci tři osoby v OpenAI vsadily, že by mohli použít brutálně těžké problémy soutěže k tréninku Umělá inteligence Model přemýšlet samo o sobě celé hodiny, aby byl schopen psát matematické důkazy. Jejich cílem nebylo jednoduše vytvořit umělou inteligenci, která by mohla dělat složitou matematiku, ale ta, která by mohla vyhodnotit nejednoznačnost a nuance-bude potřebovat AIS Kickills AIS, pokud budou někdy přijmout mnoho náročných úkolů v reálném světě. Ve skutečnosti se jedná o přesně dovednosti potřebné k vytvoření Umělá obecná inteligencenebo AGI: Porozumění a uvažování na úrovni člověka.
IMO, která se konala letos na australském pobřeží Sunshine, je světová přední matematická soutěž pro střední školy a spojuje nejlepší uchazeče z více než 100 zemí. Všichni jsou dány stejných šesti problémů – tři denně, každý v hodnotě sedmi bodů – vyřešit během dvou dnů. Ale tyto problémy nejsou nic jako to, co si pravděpodobně pamatujete ze střední školy. Spíše než krátká numerická odpověď vyžaduje každá požadovaná zdůvodnění a kreativitu ve formě stránek dlouhého písemného důkazu. Tyto logické argumenty krok za krokem musí překlenout mnoho oblastí matematika—Vytce, které jsou do té doby, až do letošního roku selhaly systémy AI velkolepě.
Tým OpenAI výzkumných pracovníků a inženýrů-Salex Wei, Sheryl Hsu a Noam Brown-používal model obecně účelného: AI navržený tak, aby „myslel“ prostřednictvím náročných problémů tím, že je rozbila na kroky, kontrolovala vlastní práci a přizpůsobovalo jeho přístup. Ačkoli systémy AI nemohly oficiálně soutěžit jako účastníci, notoricky tvrdý test sloužil jako demonstrace toho, co mohou dělat, a AIS se zabýval letošními otázkami ve stejném testovacím formátu a se stejnými omezeními jako lidští účastníci. Po obdržení otázek pracoval experimentální systém týmu pro dvě 4,5 hodiny sezení (stejně jako studenty soutěžící), bez nástrojů nebo internetu – neměl absolutně žádnou externí pomoc z nástrojů, jako jsou vyhledávače nebo software určený pro matematiku. Důkazy, které vytvořil, byly tříděny třemi bývalými medailisty IMO a Zveřejněno online. AI dokončila pět ze šesti problémů správně a obdržela 35 ze 42 bodů – minimum potřebné pro zlatou medaili IMO. (Systém AI DeepMind Google také dosáhl tohoto skóre letos.) Z 630 konkurentů pouze 26 studentů nebo 4 procent překonalo AI; Pět studentů dosáhlo perfektních 42s. Vzhledem k tomu, že před rokem se systémy AI založené na jazyce, jako je OpenAI, snažily dělat základní matematiku, byly výsledky dramatickým skokem ve výkonu.
O podpoře vědecké žurnalistiky
Pokud se vám tento článek líbí, zvažte podporu naší oceněné žurnalistiky předplatné. Zakoupením předplatného pomáháte zajistit budoucnost působivých příběhů o objevech a myšlenkách, které dnes formují náš svět.
V následující konverzaci, Vědecký Američan Mluvili se dvěma členy týmu OpenAI, Alexem Wei a Sheryl Hsu, aby diskutovali o tom, jak provedli svou práci, proč nedostatek reakce modelu na šestou otázku byl ve skutečnosti hlavním krokem k řešení problému „halucinace“ AI a jak by rozvoj systému schopného psát složité důkazy by mohl vést k umělé obecné inteligenci.
(Následuje upravený přepis rozhovoru.)
Co vás vedlo k najednou přípravu modelu AI pro IMO jen pár měsíců před soutěží? Jaká byla jiskra?
Wei: Už nějakou dobu jsem přemýšlel o matematických důkazech. Jsem v týmu v OpenAI s názvem Mathgen. Právě jsme viděli hodně výsledků. Cítili jsme se, jako bychom měli šanci získat model, který by mohl udělat opravdu dobře na IMO, a chtěli jsme udělat šílenou pomlčku, abychom se tam dostali.
HSU: Dříve jsem dělal matematické soutěže. (Wei) používal matematické soutěže – byl mnohem lepší než já. IMO je rozhodně známá v komunitě (výzkumu AI), včetně mezi vědci v OpenAI. Bylo tedy opravdu inspirativní tlačit konkrétně za to.
Můžete mluvit o svém rozhodnutí pracovat spíše s obecným systémem AI než o systému, který byl speciálně navržen tak, aby odpovídal na matematické problémy?
WEI: Filozofií je, že chceme budovat generální AI a vyvíjet metody, které nefungují pouze pro matematiku. Matematika je pro AI velmi dobrým důvodem, protože je to docela objektivní: pokud máte důkaz, je snazší získat shodu v tom, zda je to správné. To je těžší pro, řekněme, poezii – mezi čtenáři budete mít větší nesouhlas. A problémy IMO jsou velmi těžké, takže jsme chtěli řešit tvrdé problémy s obecnými metodami v naději, že se budou vztahovat také na domény mimo matematiku.
HSU: Také bych řekl, že cílem v OpenAI je budování AGI – nemusí to nutně psát papíry nebo vyhrát soutěže. Bylo důležité, aby vše, co jsme pro tento projekt udělali, bylo také užitečné pro větší cíl budování AGI a lepších modelů, které mohou uživatelé skutečně používat.
Jakým způsobem by mohl model uvažování získat zlato v IMO pomoci vést k AGI?
Wei: Jednou z hlediska je myslet na to, jak dlouhé úkoly trvají. Před rokem mohl Chatgpt dělat pouze velmi základní matematické problémy. Před dvěma lety – a dokonce i před rokem a půl – jsme často přemýšleli o matematických problémech s matematikou třídy, které byste našli na domácích úkolech pátého. Pro někoho opravdu dobrého v matematice, ti, kteří si přečtu a řeší, si zabírají druhý nebo dva. Poté jsme začali hodnotit pomocí AIME (American Invitational Mathematics Examise, soutěž matematiky na střední škole v oblasti 15 otázek). To trvá asi 10 minut na problém, s asi tři hodiny pro 15 problémů. IMO je čtyři a půl hodiny pro pouhé tři problémy – to je 90 minut na problém. Chatgpt začal být dobrý pro rychlé otázky. Nyní je to lepší u delších úkolů, například „Můžete mi tento odstavec upravit?“ Jak se AI zlepšuje, můžete rozšířit časový horizont úkolů a tento postup můžete vidět jasně v matematice.
HSU: Dalším aspektem je, že modely uvažování byly dříve velmi dobré v úkolech, které lze snadno ověřit. Pokud řešíte matematický problém s nevýrazný, existuje jedna numericky správná odpověď. Je snadné to zkontrolovat. Ale ve skutečném světě – a v úkolech, s nimiž lidé skutečně chtějí pomoc – je složitější. Existuje nuance: možná je to většinou správné, ale má nějaké chyby; Možná je to správné, ale může být lépe stylizováno. Matematika založená na důkazu není k vyhodnocení triviální. Pokud přemýšlíme o AGI, tyto úkoly nebudou snadné posoudit jako správné nebo ne; Budou být více volně specifikováni a celkově těžší.
Jaký byl proces školení modelu?
WEI: Obecně, posílení učení trénuje model odměňováním dobrého chování a penalizací špatného chování. Pokud opakovaně posilujete dobré chování a odradíte špatné chování, model je pravděpodobnější, že projeví dobré chování.
HSU: Ke konci jsme také zmenšili výpočet testu (jak dlouho byl model AI schopen „přemýšlet“ před odpovědí). Dříve pro člověka mohou být problémy tohoto druhu několik minut; Nyní jsme se rozšiřovali na hodiny. Tento čas na přemýšlení poskytl překvapivé zisky. Byl to okamžik, kdy jsme provedli hodnocení v naší interní testovací sadě, která trvala dlouho kvůli prodlouženému výpočtu času. Když jsme se konečně podívali na výsledky – a Alex je zhodnotil – vidění pokroku mě přimělo myslet si, že zlato může být na dosah. To bylo docela vzrušující.
Při testu IMO dostal model, který jste vyvinuli, pět ze šesti odpovědí správně. Ale se šestou otázkou se model nepokoušel poskytnout odpověď. Můžete mi říct více o významu této reakce?
Wei: Model, který věděl, co neví, byl jedním z prvních známek (pokroku), které jsme viděli. Dnes, pokud používáte chatgpt, někdy uvidíte „halucinace“ – modely nejsou spolehlivě vědět, kdy to nevědí. Tato schopnost není specifická pro matematiku. Byl bych rád, kdyby mohl model pro každodenní otázky upřímně říci, když neví, místo toho, aby odpověděl, musím se ověřit samostatně.
Jaký dopad by mohla mít vaše práce na tomto modelu na budoucí modely?
HSU: Všechno, co jsme pro tento projekt udělali, je poměrně obecné – schopné hodnotit výstupy, které nejsou jediné odpovědi, a pracovat na tvrdých problémech po dlouhou dobu a zároveň dosahovat stálého pokroku. Ti, kteří zde hodně přispěli k úspěchu, a nyní jsme je my a další v OpenAI uplatňovali za matematiku. Není to v GPT -5, ale v budoucích modelech jsme nadšeni, že můžeme tyto schopnosti integrovat.
WEI: Pokud se podíváte na řešení, která jsme veřejně zveřejnili pro problémy IMO, někteří jsou velmi dlouhé – pět až 10 stránek. Tento model může generovat dlouhé výstupy, které jsou konzistentní a koherentní, bez chyb. Mnoho současných modelů státu -Art nemůže vytvořit zcela koherentní pětipátovou zprávu. Jsem nadšený, že tato péče a přesnost pomohou v mnoha jiných oblastech.



