Čínský Deepseek tvrdí, že jeho model AI stojí jen 294 000 dolarů na trénink

Čínský vývojář AI Deepseek uvedl, že utratil 294 000 dolarů na trénink svého modelu R1, mnohem nižší, než pro americké soupeře uváděné, v článku, který pravděpodobně znovu začne debatu o Pekingově místě v závodě o rozvoj umělé inteligence.
Vzácná aktualizace od společnosti se sídlem v Hangzhou, první odhad, který zveřejnil nákladů na školení R1, se objevila v článku o recenzovaném článku v akademickém časopise Nature ve středu.
Deepseekovo vydání toho, co uvedla, byly ledna s nízkými nákladnými systémy AI AI, přimělo globální investory, aby vyhodili technologické akcie, protože se obávali, že nové modely by mohly ohrozit dominanci vůdců AI včetně NVIDIA.
Od té doby společnost a zakladatel Liang Wenfeng do značné míry zmizeli z veřejného pohledu, kromě vysuzování několika nových aktualizací produktů.
Přírodní článek, který Liang uvedl jako jednoho ze spoluautorů, uvedl, že model R1 zaměřeného na zdůvodnění Deepseek stojí 294 000 dolarů na trénink a používal 512 čipů Nvidia H800. Předchozí verze článku zveřejněného v lednu tyto informace neobsahovala.
Náklady na trénink pro modely s velkým jazykem napájejícím chatboty AI AI se týkají nákladů vzniklých z provozování shluku výkonných čipů po týdny nebo měsíce, aby zpracovávaly obrovské množství textu a kódu.
Sam Altman, generální ředitel amerického AI Giant OpenAI, v roce 2023 uvedl, že školení základních modelů stálo „mnohem více“ než 100 milionů dolarů, i když jeho společnost nedala podrobná čísla pro žádné z jeho vydání.
Některá prohlášení Deepseeka o nákladů na vývoj a technologii, kterou použila, byly zpochybňovány americkými společnostmi a úředníky.
Čipy H800, které zmínil, byly navrženy společností NVIDIA pro čínský trh poté, co USA v říjnu 2022 učinily pro společnost nezákonné exportovat své výkonnější H100 a A100 AI čipy do Číny.
Američtí úředníci v červnu řekli agentuře Reuters, že DeepSeek má přístup k „velkým svazkům“ čipů H100, které byly pořízeny po provedení vývozních kontrol USA. NVIDIA v té době řekla agentuře Reuters, že Deepseek použil zákonně získané čipy H800, nikoli H100.
V doplňkovém informačním dokumentu, který doprovází přírodní článek, společnost poprvé uznala, že vlastní čipy A100 a uvedla, že je použila v přípravných fázích vývoje.
„Pokud jde o náš výzkum na DeepSeek-R1, použili jsme GPU A100 k přípravě na experimenty s menším modelem,“ napsali vědci. Po této počáteční fázi byl R1 vyškolen celkem 80 hodin na 512 čipovém shluku H800 čipů, dodali.
Reuters již dříve uvedla, že jedním z důvodů, proč byl Deepseek schopen přilákat nejjasnější mysl v Číně, bylo to, že to byla jedna z mála domácích společností, která provozovala superpočítační klastr A100.
Deepseek také poprvé odpověděl, i když ne přímo, na tvrzení nejlepšího poradce Bílého domu a dalších amerických postav AI v lednu, že úmyslně „destiloval“ modely OpenAI do svých vlastních.
DeepSeek důsledně bránil destilaci jako lepší výkon modelu, zatímco je mnohem levnější trénovat a běžet, což umožňuje širší přístup k technologiím poháněným AI kvůli energeticky náročným požadavkům na zdroje.
Termín se vztahuje na techniku, kdy se jeden systém AI učí z jiného systému AI, což umožňuje novějšímu modelu těžit z výhod investic času a výpočetní síly, která šla do budování dřívějšího modelu, ale bez souvisejících nákladů.
Deepseek v lednu uvedl, že pro některé destilované verze vlastních modelů použila model Open-Source AI Meta Open-Source Llama AI.
Deepseek v přírodě řekl, že tréninkové údaje pro svůj model V3 se spoléhaly na procházené webové stránky, které obsahovaly „významný počet odpovědí generovaných OpenAI-model, což může vést základní model k nepřímému získání znalostí od jiných výkonných modelů“.
Ale řekl, že to nebylo úmyslné, ale spíše náhodné.
OpenAI neodpověděl okamžitě na žádost o komentář.
Publikováno – 19. září 2025 09:13 IS
 

 
						


