DeepSeek发布两大开源模型，引发AI行业变革

AI快讯1年前 (2025)发布 niko

2025年春节前夕，AI领域迎来重大变革。中国杭州的DeepSeek公司，于2024年12月26日和2025年1月20日先后推出V3和R1两大开源模型，在全球范围内掀起波澜。

据了解，DeepSeek成立于2023年7月17日，作为一家初创企业，却手握万张英伟达芯片。其推出的V3模型在性能上逼近闭源模型[GPT-4](https://ai-kit.cn/sites/1023.html)o与Claude-3.5-Sonnet，超越开源模型LLaMA3，且总训练成本仅557.6万美元；推理模型R1的效果则逼近OpenAI o1，APi价格仅为OpenAI o1的3.7%。

DeepSeek的崛起，打破了AI行业的传统格局。其模型不仅完全免费使用，还在与用户聊天时展示思维过程，提升对话体验。同时，该公司毫无保留地开源技术论文和模型，赢得了用户的广泛认可。然而，这也引发了海外巨头的不满。OpenAI指责DeepSeek“蒸馏”其模型，Anthropic创始人则呼吁加强对中国的算力出口管制。

面对质疑，DeepSeek在技术论文中回应称，V3模型采用多项自研技术进行架构创新，包括DeepSeekMoE+DeepSeekMLA架构、MTP多Token预测技术，使低成本训练成为可能；R1模型放弃传统RLHF中的HF部分，通过纯强化学习直接训练，优化了训练效率。

尽管DeepSeek宣称训练成本低，但半导体市场分析公司指出，557.6万美元仅为模型预训练的GPU成本，考虑到服务器资本支出、运营成本等因素，其总成本在4年内可能达到25.73亿美元。不过，创新成本下降的趋势早已存在，DeepSeek只是加速了这一进程。

DeepSeek的爆火，对中美AI产业链上下游企业产生了巨大冲击。在chatbot类AI应用领域，DeepSeek日活超过2000万，超越国内的豆包和Kimi登顶中国第一，仅用一周就用户破亿，而[chatgpt](https://ai-kit.cn/sites/1007.html)用时2个月。这表明用户对chatbot模式的忠诚度较低，一旦出现更强大、更便宜、更快的模型，用户就会迁移。

在自研大模型公司层面，DeepSeek的出现使得六小龙的格局基本瓦解。投资人认为，国内巨头中，阿里的Qwen表现出色，豆包在2024年下半年提升明显；创业公司里，DeepSeek和月之暗面增长迅速，其余五小龙则增长缓慢。

至于芯片市场，多位行业人士表示，算力之争不会消失，但现在到了重估阶段。英伟达股价虽受影响，但最终价值仍会上升，因为模型应用场景的扩展将增加对算力的需求。同时，DeepSeek验证了国内AI产业从芯片到模型可以部分实现国产替代，提振了产业信心。

从更大视角来看，DeepSeek的崛起背后是两种路径的对比。以往大模型公司多采用“算力军备”范式，而DeepSeek选择了“算法效率”范式，以产业落地为目标，推出低成本高性能模型。这一范式的可行性得到了验证，也让美国AI巨头的资本故事受到挑战。

然而，DeepSeek也面临着诸多挑战。近期，几大海外巨头推出了新模型，如OpenAI的o3-mini系列和谷歌的Gemini2.0家族更新。此外，有业内人士认为，DeepSeek专注于工程优化，可能难以在能力上限上取得突破。

总之，DeepSeek搅动了AI行业的这片汪洋，其未来发展充满变数。我们将持续关注其动态，见证AI行业的变革与发展。

# AI快讯

文章版权归作者所有，未经允许请勿转载。