věda

Čínský model Deepseek vydává „meziprodukt“ model AI na cestě k další generaci

Tato architektura bude pravděpodobně nejdůležitějším vydáním produktu Deepseek, protože V3 a R1 šokovali Silicon Valley a Tech Investors mimo Čínu (File) | Foto kredit: Reuters

Čínský vývojář AI Deepseek vydal svůj nejnovější model „experimentální“ což bylo řečeno, že bylo efektivnější trénovat a lépe zpracovávat dlouhé sekvence textu než předchozí iterace jeho velkých jazykových modelů.

Společnost se sídlem v Hangzhou s názvem DeepSeek-V3.2-EXP „přechodným krokem k naší architektuře nové generace“ v příspěvku na vývojářském fóru objímající tvář.

Tato architektura bude pravděpodobně nejdůležitějším vydáním produktu Deepseek od doby, kdy V3 a R1 šokovali Silicon Valley a Tech Investors mimo Čínu.

Model v3.2-exp zahrnuje mechanismus zvaný Deepseek řídká pozornost, o kterém čínská firma říká, že může snížit náklady na výpočetní techniku ​​a posílit některé typy modelového výkonu. Deepseek v pondělí v pondělí uvedl, že snižuje ceny API o „50%+“.

Zatímco Deepseekova architektura nové generace je nepravděpodobné, že by se trhaly, jak tomu bylo v lednu předchozí verze, stále by mohlo vyvíjet významný tlak na domácí soupeře, jako jsou protějšky QWEN a USA, jako jsou OpenAI, pokud může opakovat úspěch Deepseek R1 a V3.

To by vyžadovalo, aby prokázal vysokou schopnost pro zlomek toho, co konkurenti účtují a utratí v modelovém školení.

Zdrojový odkaz

Related Articles

Back to top button