věda

Tajemství čínského modelu AI Deepseek odhalené v památkovém papíru

Tajemství Deepseek AI modelu odhaleného v památkovém papíru

První recenzovaná studie modelu Deepseek AI ukazuje, jak čínská začínající firma vytvořila tržní otřes LLM za 300 000 $

DeepSeek říká, že jeho model R1 se nenaučil kopírováním příkladů generovaných jinými LLM.

Iain Masterton/Alamy Live News

Úspěch Deepseek Výkonná umělá inteligence (AI) Model R1 – To se stalo americký akciový trh klesá Když byl propuštěn v lednu – nevztahoval se na to, aby byl vyškolen na produkci svých soupeřů, uvedli vědci v čínské firmě. Prohlášení přišlo v dokumentech zveřejněných společně s recenzovanou verzí modelu R1, zveřejněné dnes v Příroda.

R1 je navržen tak, aby vynikal v úkolech „uvažování“, jako je matematika a kódování, a je levnějším soupeřem s nástroji vyvinutými americkými technologickými firmami. Jako model „otevřené hmotnosti“, Je k dispozici pro kohokoli ke stažení a je nejoblíbenějším takovým modelem na komunitní platformě AI objímající se dosud, když byl stažen 10,9 milionukrát.

Papír aktualizuje a Předtisk vydán v lednukterý popisuje, jak DeepSeek rozšířil standardní model velkého jazyka (LLM), aby se zabýval uvažovacími úkoly. Jeho doplňkový materiál poprvé odhaluje, kolik stojí R1 na trénink: ekvivalent pouhých 294 000 USD. To přichází na vrcholu 6 milionů dolarů, takže společnost se sídlem v Hangzhou utratila na základnu LLM, na které je R1 postaven, ale celková částka je stále podstatně nižší než desítky milionů dolarů, o nichž se předpokládá, že konkurenční modely mají náklady. DeepSeek říká, že R1 byl vyškolen hlavně na čipy H800 NVIDIA, které v roce 2023 byly zakázány být prodávány do Číny pod americkými vývozními kontrolami.


O podpoře vědecké žurnalistiky

Pokud se vám tento článek líbí, zvažte podporu naší oceněné žurnalistiky předplatné. Zakoupením předplatného pomáháte zajistit budoucnost působivých příběhů o objevech a myšlenkách, které dnes formují náš svět.


Přísná recenze

R1 je považován za první hlavní LLM, který podrobil procesu vzájemného hodnocení. „Je to velmi vítaný precedens,“ říká Lewis Tunstall, inženýr strojového učení v objímání tváře, který zkontroloval Příroda papír. „Pokud nemáme tuto normu pro veřejné sdílení velké části tohoto procesu, je velmi obtížné posoudit, zda tyto systémy představují rizika nebo ne.“

V reakci na komentáře pro vzájemné hodnoty snížily tým Deepseek antropomorfizaci ve svých popisech a přidali objasnění technických detailů, včetně druhů dat, na kterých byl model vyškolen, a jeho bezpečnost. „Procházení přísným procesem recenze peer-review jistě pomáhá ověřit platnost a užitečnost modelu,“ říká Huan Sun, výzkumný pracovník AI na Ohio State University v Columbusu. „Ostatní firmy by měly udělat totéž.“

Hlavní inovace Deepseeka bylo použít automatizovaný druh přístupu pokusů a omylů známý jako učení čistého vyztužení k vytvoření R1. Proces odměnil model za dosažení správných odpovědí, než aby ho učil, aby dodržoval příklady uvažování o člověku. Společnost říká, že takto se její model naučil své vlastní strategie podobné uvažování, jako je to, jak ověřit její fungování bez dodržování taktiky předepsané člověkem. Pro zvýšení účinnosti, model také skóroval své vlastní pokusy pomocí odhadů, spíše než k tomu, aby tak učinil samostatný algoritmus, techniku ​​známé jako optimalizace relativní politiky skupiny.

Model byl mezi vědci AI „docela vlivný“, říká Sun. „Téměř veškerá práce v roce 2025 doposud, že provádí posilovací učení v LLMS, by mohlo být inspirováno R1 tak či onak.“

Technika tréninku

Zprávy médií v lednu naznačují, že vědci ve společnosti Openai, se sídlem v San Franciscu v Kalifornii, kteří vytvořili Chatgpt a „O“ řada modelů uvažováníMyslel si, že Deepseek použil výstupy z modelů OpenAI k trénování R1, metody, která mohla urychlit schopnosti modelu při používání méně zdrojů.

DeepSeek nezveřejnil svá tréninková data jako součást příspěvku. Ale na burzách s rozhodčími vědci firmy uvedli, že R1 se nedozvěděl kopírováním příkladů uvažování které byly generovány modely OpenAI. Uznali však, že stejně jako většina ostatních LLM byl základní model R1 vyškolen na webu, takže na internetu požívá jakýkoli obsah generovaný AI.

Tento vyvrácení je „tak přesvědčivé, jak jsme mohli vidět v jakékoli publikaci“, říká Sun. Tunstall dodává, že ačkoli si nemůže být stoprocentně jistý, že R1 nebyl vyškolen na příklady OpenAI, pokusy o replikaci jiných laboratoří naznačují, že Deepseekův recept na uvažování je pravděpodobně dost dobrý, aby to nemusel dělat. „Myslím, že důkazy jsou nyní docela jasné, že můžete získat velmi vysoký výkon jen pomocí čistého posílení učení,“ říká.

Pro výzkumné pracovníky je R1 stále velmi konkurenceschopná, říká Sun. Ve výzvě k dokončení vědeckých úkolů, jako je analýza a vizualizace dat, známá jako ScienceagentbenchSlunce a jeho kolegové zjistili, že ačkoli R1 nebyl první pro přesnost, byl to jeden z nejlepších modelů, pokud jde o vyrovnávání schopností s náklady.

Ostatní vědci se nyní snaží použít metody používané k vytvoření R1 ke zlepšení schopností podobných zdůvodnění stávajících LLM a jejich rozšíření na domény mimo matematiku a kódování, říká Tunstall. Tímto způsobem dodává, že R1 „zahájil revoluci“.

Tento článek je reprodukován se svolením a byl poprvé publikováno 17. září 2025.

Je čas postavit se za vědu

Pokud se vám tento článek líbil, rád bych požádal o vaši podporu. Vědecký Američan sloužil jako obhájce vědy a průmyslu po dobu 180 let a právě teď může být nejkritičtějším okamžikem v této historii dvou století.

Byl jsem Vědecký Američan Předplatitel od svých 12 let a pomohlo to utvářet způsob, jakým se dívám na svět. Dejte mi vědět Vždy mě vzdělává a potěší a inspiruje pocit úcty pro náš obrovský, krásný vesmír. Doufám, že to také pro vás.

Pokud Přihlaste se k odběru Vědecký AmeričanPomáháte zajistit, aby naše pokrytí bylo soustředěno na smysluplný výzkum a objev; že máme zdroje na podávání zpráv o rozhodnutích, která ohrožují laboratoře po celé USA; a že podporujeme začínající i pracující vědce v době, kdy se hodnota samotné vědy příliš často nerozpoznala.

Na oplátku získáte základní zprávy, Upmasující podcastyBrilantní infografika, zpravodaje nemohu vynechatMust-Watch videa, náročné hrya nejlepší psaní a hlášení vědeckého světa. Můžete dokonce Darujte někomu předplatné.

Nikdy nebylo důležitější čas, abychom se postavili a ukázali, proč věda záleží. Doufám, že nás v této misi podpoříte.

Zdrojový odkaz

Related Articles

Back to top button