Nový Grok 4 Elona Muska 4 přijímá „Poslední zkouška lidstva“, když se závod AI zahřívá

New Grok 4 přijímá „Poslední zkouška lidstva“, když se závod AI zahřívá
Elon Musk zahájil Xai’s Grok 4-vyvolával jej „nejchytřejší AI na světě“ a tvrdil, že to může eso ph.d. na úrovni na úrovni a převyšuje soupeře, jako jsou Google Gemini a OpenAI’s O3 na tvrdých benchmarcích
Elon Musk ve středu večer vydal nejnovější model umělé inteligence od své společnosti Xai. Na hodinové veřejné odhalení zavolal model Grok 4, „nejchytřejší AI na světě“ a tvrdil, že dokázal získat dokonalé skóre SAT a téměř dokonalý GRE má za následek každý předmět, od humanitních věd. Nová verze Grok přichází v době, kdy byl Xai kritizován za odpovědi předchozí verze Groka, které odkazují Hitler a antisemitismus. (Od propuštění se také objevila určitá kritika ohledně Grokových kódovacích schopností a náchylnosti k vězení.)
Během online spuštění Musk a členové jeho týmu popsali testování Grok 4 na metrice s názvem Poslední zkouška lidstva (Prosím) – A. Benchmark 2 500 otázek navržený k vyhodnocení dovedností akademických znalostí a uvažování AI. Vytvořeno téměř 1 000 lidskými odborníky ve více než 100 disciplínách a vydaných v lednu 2025, testovací témata od klasiky po kvantovou chemii a mísí text s obrázky. Grok 4 údajně skóroval 25,4 procenta sám. Ale vzhledem k přístupu k nástrojům (například externí AIDS pro provádění kódu nebo vyhledávání na webu), dosáhla 38,6 procenta. To skočilo na 44,4 procenta s verzí zvanou Grok 4 Heavy, která k řešení problémů používá více agentů AI. Dva další nejlépe výkonné modely AI jsou Gemini-Pro Google (které dosáhly 26,9 procenta s nástroji) a OpenAI O3 model (který získal 24,9 procenta, také s nástroji).
Výsledky interního testování Xai se ještě musí objevit na Leaderboard pro HLEa zůstává však nejasné, zda je to proto, že XAI musí výsledky ještě předložit nebo proto, že tyto výsledky čekají na kontrolu. PotrubíPlatforma na trhu sociálních předpovědí, kde uživatelé vsadí peníze (nazývané „mana“) na budoucích událostech v politice, technologii a dalších předmětech, předpověděla 1 % šanci, v pátek ráno, že Grok 4 by debutoval na HLEově žebříčku s 45 % skóre nebo vyšší na zkoušce do měsíce od jejího vydání. (Mezitím Xai vyžádal skóre pouze 44,4.)
O podpoře vědecké žurnalistiky
Pokud se vám tento článek líbí, zvažte podporu naší oceněné žurnalistiky předplatné. Zakoupením předplatného pomáháte zajistit budoucnost působivých příběhů o objevech a myšlenkách, které dnes formují náš svět.
Během spuštění tým XAI také probíhal živé demonstrace, které ukazují, že Grok 4 drtí baseballové kurzy, určují, který zaměstnanec XAI má „nejpodivnější“ profilový obrázek na X a generuje simulovanou vizualizaci černé díry. Musk navrhl, aby systém mohl do konce příštího roku objevit zcela nové technologie – a možná „novou fyziku“. Hry a filmy jsou také na obzoru, s Musk předpovídá, že Grok 4 bude moci do roku 2026 natočit hratelné tituly a sledovatelné filmy. Grok 4 má také nové zvukové schopnosti, včetně hlasu, který během spuštění zpíval, a Musk řekl, že nové nástroje pro generování obrazu a kódovací nástroje budou brzy propuštěny. Pravidelná verze Grok 4 stojí 30 $ měsíčně; Supergrok Heavy – luxusní balíček s více agenty a výzkumnými nástroji – je na 300 $.
Umělá analýzaNezávislá benchmarkingová platforma, která řadí AI modely, nyní uvádí Grok 4 jako nejvyšší ve svém indexu umělé analýzy, mírně před Gemini 2.5 Pro a OpenAI’s O4-Mini-High. A Grok 4 se objeví jako špičkový veřejně dostupný model na žebříčky pro abstrakci a uvažování korpus nebo arc-agi-1 a jeho druhé vydání, Arc-AGI-2– Benchmarkmarky, které měří pokrok směrem k „lidské“ obecné inteligenci. Greg Kamradt, prezident ARC Prize Foundation, neziskové organizace, která udržuje tyto dva žebříčky, říká, že když tým XAI kontaktoval nadaci s výsledky Grok 4, organizace poté nezávisle testovala Grok 4 na datovém souboru, ke kterému tým XAI neměl přístup. „Než nahlásíme výkon pro jakoukoli laboratoř, není to ověřeno, pokud jej ověříme,“ říká Kamradt. „Schválili jsme (výsledky testování), které (tým XAI) ukázal při spuštění.“
Podle Xai, Grok 4 také překonává jiné systémy AI na řadě dalších benchmarků, které naznačují jeho sílu u subjektů STEM (přečtěte si úplné poruchy referenčních hodnot zde). Alex Olteanu, senior editor vědy o datech na platformě AI Education Platform DataCamptestoval to. „Grok byl v mých testech silný na matematiku a programování a byl jsem ohromen kvalitou jeho řetězce promyšlených uvažování, která ukazuje geniální a logicky zdravý přístup k řešení problémů,“ říká Olteanu. „Okno jeho kontextu však není příliš konkurenceschopné a může se potýkat s velkými kódovými základnami, jako jsou ty, s nimiž se setkáte ve výrobě. Také to nedosáhlo, když jsem ho požádal, aby analyzoval 170stránkový PDF, pravděpodobně kvůli jeho omezenému kontextovému okně a slabým multimodálním schopnostem.“ (Multimodální schopnosti odkazují na schopnost modelu analyzovat více než jeden druh dat současně, jako je kombinace textu, obrázků, zvuku a videa.)
Od vydání Grok 4 uživatelé uvedli, že často dělá jednoduché chyby v psaní kódu ve srovnání s nástroji AI, jako je Claude nebo Blížencizatímco jiní dospěli k závěru ve srovnání má různé silné stránky kódování. Hackeři také našli způsoby Jailbreak Grok 4—Vácnost k rozdávání nebezpečných informací, jako je to, jak vyrábět bomby, vyvolávat otázky o tom, jak bezpečný je systém.
Na další frontě se od jeho vydání objevily další problémy s Grok 4. Několik Plakáty na x—Sotané sám Musk-stejně jako technická průmysl zprávyVývody Uvedli, že když byl Grok 4 položen otázky ohledně izraelsko-palestinského konfliktu, potratů a amerického imigračního zákona, často hledal Muskův postoj k těmto otázkám odkazem na jeho X příspěvků a článků o něm. And the release of Grok 4 comes after several controversies with Grok 3, the previous model, which issued outputs that included antisemitic comments, praise for Hitler and claims of “white genocide”—incidents that xAI publicly acknowledged, attributing them to Neoprávněné manipulace a uvádí, že společnost byla implementace nápravných opatření.
Na jednom místě během uvedení na trh Musk komentoval, jak je nesmasanější AI než lidé děsivé, ačkoli řekl, že věří, že konečný výsledek bude dobrý – pravděpodobně. „Trochu jsem se smířil se skutečností, že i kdyby to nebylo dobré, alespoň bych rád viděl, že se to stane,“ řekl.
Poznámka editora (15/15/25): Tento článek byl aktualizován po zveřejnění příspěvku tak, aby obsahoval informace z uživatelských zpráv od vydání Grok 4.