věda

Matematici zpochybňují výkon AI na mezinárodní matematické olympiádě

Definující vzpomínkou z mého seniorského ročníku střední školy byla devítihodinová matematická zkouška s pouhými šesti otázkami. Šest z nejlepších střelců vyhrálo sloty v americkém týmu pro mezinárodní matematickou olympiádu (IMO), nejdelší matematickou soutěž na světě pro studenty středních škol. Neudělal jsem střih, ale stejně jsem se stal profesorem matematiky.

Letošní olympiáda, která se konala minulý měsíc na australském pobřeží Sunshine, měla neobvyklou stranu. Zatímco 110 studentů z celého světa šlo pracovat na složitých matematických problémech pomocí pera a papíru, několik společností AI tiše testovalo nové modely ve vývoji na počítačové aproximaci zkoušky. Hned po uzavření obřadů, OpenAI a později Google Deepmind oznámil, že jejich modely získaly (neoficiální) zlaté medaile za řešení pěti ze šesti problémů. Vědci jako Sébastien Bubeck z OpenAI oslavili úspěchy těchto modelů jako „Moment přistání měsíce„Podle průmyslu.

Ale jsou? Bude AI nahradit profesionální matematici? Stále čekám na důkaz.


O podpoře vědecké žurnalistiky

Pokud se vám tento článek líbí, zvažte podporu naší oceněné žurnalistiky předplatné. Zakoupením předplatného pomáháte zajistit budoucnost působivých příběhů o objevech a myšlenkách, které dnes formují náš svět.


Hype kolem letošních výsledků AI je snadno srozumitelný, protože olympiáda je těžká. Abych byl v mém seniorském ročníku střední školy, odložil jsem počet a lineární algebru, abych se zaměřil na problémy s olympiádou, které byly spíše výzvou. Plus špičkové modely, které se stále vyvíjejí, se na zkoušce mnohem lépe než komerční modely venku. V paralelní soutěži spravované Matharena.aiGemini 2.5 Pro, Grok 4, O3 High, O4-Mini High a Deepseek R1 Všichni se nepodařilo vytvořit jediné zcela správné řešení. Ukazuje, že modely AI jsou chytřejší, jejich schopnosti uvažování se zlepšují poměrně dramaticky.

Přesto se stále nebojím.

Nejnovější modely právě získaly dobrou známku na jediném testu-stejně jako mnoho studentů-a srovnání hlavy k hlavě není zcela spravedlivé. Modely často používají „nejlepšín„Strategie, generování více řešení a poté se klasifikuje, aby vybrala nejsilnější. To je podobné tomu, aby několik studentů pracovalo nezávisle, pak se sejde, aby si vybrali nejlepší řešení a předložili pouze toto. Pokud by lidským soutěžícím byla tato možnost povolena, jejich skóre by se pravděpodobně také zlepšila.

Ostatní matematici podobně varují proti humbuku. IMO Gold Medailist Terence Tao (v současné době matematik na Kalifornské univerzitě v Los Angeles) Mastodon To, co může AI udělat, záleží na tom, co je metodika testování. Prezident IMO Gregor Dolinar řekl, že organizace „Nelze ověřit metody (používané modely AI), včetně množství použitého výpočtu nebo zda došlo k zapojení člověka, nebo zda lze výsledky reprodukovat

Kromě toho, otázky IMO na zkoušku se nesrovnávají s druhy otázek, které se profesionální matematici snaží odpovědět, kam může trvat devět let, spíše než devět hodin, aby vyřešil problém na hranici matematického výzkumu. Jak Kevin Buzzard, profesor matematiky na Imperial College London, řekl na online fóru: „Když jsem dorazil do Cambridge UK jako vysokoškolský spojující svou zlatou medaili IMO, nebyl jsem v žádném případě, abych tam pomohl žádnému z výzkumných matematiků.“

V těchto dnech může matematický výzkum trvat více než jednu životnost, aby získal správnou odbornost. Stejně jako mnoho mých kolegů jsem byl v pokušení vyzkoušet „vibrace prokázání“ – matematický chat s LLM jako by člověk s kolegou a ptal se „je pravda, že …“ následuje technická matematická domněnka. Chatbot často poskytuje jasně artikulovaný argument, že podle mých zkušeností má tendenci být správný, pokud jde o standardní témata, ale jemně špatně na špičce. Například každý model, který jsem se zeptal, udělal stejnou jemnou chybu při předpokladu, že teorie idempotentů se chová stejně pro slabé nekonečné dimenzionální kategorie jako pro běžné, něco, co lidští odborníci (věřte mi v to) v mém oboru, že jsou nepravdivá.

Nikdy nebudu důvěřovat LLM – což je v jeho jádru jen předpovídat, jaký text přijde dál v řadě slov, založený na tom, co je v jeho datovém souboru -, aby poskytl matematický důkaz, že se nemůžu ověřit.

Dobrou zprávou je, že máme automatizovaný mechanismus pro určení, zda lze důvěřovat. Relativně nedávné nástroje s názvem „Asistenti důkazů“ jsou softwarové programy (nepoužívají AI) navržené ke kontrole, zda logický argument prokazuje uvedený tvrzení. Stále více přitahují pozornost matematiků, jako je Tao, Buzzard a já, kteří chtějí více ujištění, že naše vlastní důkazy jsou správné. A nabízejí potenciál pomoci demokratizovat matematiku a dokonce zlepšit bezpečnost umělé inteligence.

Předpokládejme, že jsem obdržel dopis, v neznámém rukopisu, od Erode, město v Tamil Nadu v Indii, který se domníval, že obsahuje matematický důkaz. Možná jsou jeho myšlenky brilantní, nebo možná jsou nesmyslné. Musel bych strávit hodiny pečlivě studováním každé řádky a ujistit se, že argument plyne krok za krokem, než budu schopen zjistit, zda jsou závěry pravdivé nebo nepravdivé.

Pokud by však matematický text byl napsán ve vhodné počítačové syntaxi namísto přirozeného jazyka, mohl by pro mě logiku zkontrolovat logiku. Lidský matematik, jako jsem já, by pak musel porozumět významu technických termínů v prohlášení věty. V případě Srinivasy Ramanujan, generačního matematického génia, který pocházel z Erode, si odborník vzal čas na pečlivé dešifrování jeho dopisu. V roce 1913 Ramanujan psal britským matematikem GH Hardymu se svými nápady. Naštěstí Hardy poznal Ramanujanova brilantnost a pozval ho do Cambridge, aby spolupracoval, zahájil kariéru jednoho z matematických „velikánů“.

Zajímavé je, že někteří ze soutěžících AI IMO předložili své odpovědi v jazyce Lean Computer Proof Assistant, aby počítačový program mohl automaticky kontrolovat chyby v jejich uvažování. Start-up s názvem harmonická zveřejněná formální důkazy generovaná jejich modelem pro pět ze šesti problémů a Bytedance dosáhl výkonnosti stříbrné medaile vyřešením čtyř ze šesti problémů. Otázky však musely být napsány, aby vyhovovaly omezením jazyka modelů, a stále potřebovali dny, aby to zjistili.

Přesto jsou formální důkazy jedinečně důvěryhodné. Zatímco tzv. Modely „uvažování“ jsou vyzvány, aby se rozdělily problémy na kousky a vysvětlily jejich „myšlení“ krok za krokem, výstup pravděpodobně vytvoří argument, který zní logicky, ale není, pokud jde o skutečný důkaz. Naproti tomu důkazní asistent nepřijme důkaz, pokud nebude plně přesný a plně přísný, což odůvodňuje každý krok v jeho řetězci. Za určitých okolností je ruční nebo přibližné řešení dostatečně dobré, ale když záleží na matematické přesnosti, měli bychom požadovat, aby důkazy generované AI byly formálně ověřitelné.

Ne každá aplikace generativní AI je tak černá a bílá, kde lidé se správnou odborností mohou určit, zda jsou výsledky správné nebo nesprávné. V životě existuje spousta nejistoty a je snadné dělat chyby. Jak jsem se dozvěděl na střední škole, jednou z nejlepších věcí na matematice je skutečnost, že můžete definitivně dokázat, že některé myšlenky jsou špatné. Jsem rád, že se AI pokusí vyřešit mé osobní matematické problémy, ale pouze pokud jsou výsledky formálně ověřitelné. A zatím tam nejsme úplně.

Toto je článek o názoru a analýze a názory vyjádřené autorem nebo autory nemusí nutně názory Vědecký Američan.

Zdrojový odkaz

Related Articles

Back to top button