DeepSeek引领人工智能新风潮，V3与R1模型成关键突破点

AI快讯1年前 (2025)发布 niko

近日，AI大模型公司DeepSeek的出现引发全球震动。2025年1月27日至2月12日，WindDeepSeek指数在短短7个交易日内暴涨58.29%，相关概念股并行科技同期更是飙升234.73%。其崛起不仅震撼美国，致使英伟达股价单日暴跌17%，更是在全球范围内掀起波澜。

中国工程院院士李国杰表示，DeepSeek的诞生堪称世界第三波人工智能浪潮中的标志性事件，可与2023年OpenAI发布 chatgpt3.5相媲美。特别是其推出的V3和R1模型，实现了技术与发展模式的双重突破。

DeepSeek在模型算法层面创新显著。它采用新的混合专家架构（MoE），每一层设置256个路由专家和1个共享专家，前向传播时仅激活部分专家计算，大大降低了训练成本，如671B参数的DeepSeek-V3模型，函数调用和传递仅用约37B参数。同时，低秩注意力机制这一创新，对注意力机制矩阵进行压缩，将显存占用降至其他大模型的5%- 13% ，显著提升了运行效率。

推理层面，DeepSeek同样成果斐然。它通过开源公开低成本推理的奥秘，为行业发展开辟新径。并且，其采用全自动强化学习替代传统方式，提高了强化学习效率。

在全球影响力方面，DeepSeek表现惊人。2025年1月20日DeepSeek-R1发布上线，无广告投放情况下，7天内用户增长超1亿，创造新纪录，在苹果应用商店下载量在多个国家/地区位居榜首，GitHub星数也超越OpenAI。微软、AWS、英伟达等全球龙头企业纷纷在其AI服务平台部署DeepSeek-R1模型。

李国杰认为，DeepSeek闯出了人工智能发展的新路，使中国从“追赶者”转变为“规则改写者”。它打破了“高算力和高投入是发展人工智能唯一途径”的迷信，推动行业进入以算法和模型架构优化为主，兼顾数据质量与规模、理性提升算力的新阶段。其开源战略更为AI发展带来新的可能，引领行业新潮流。

# AI快讯

文章版权归作者所有，未经允许请勿转载。