DeepSeek R1 引领大模型创新变革，掀起 AI 行业风暴

AI快讯1年前 (2025)发布 niko

今年春节，一款中国大模型——DeepSeek R1 于全球 AI 圈引发热议，其直接对标 OpenAI 去年 9 月推出的 OpenAI o1 系列模型。

DeepSeek 的火爆程度可见一斑。1 月 27 日，它在中国区和美国区苹果 App Store 免费榜上下载量登顶，单周下载量高达约 240万次。此前，OpenAI o1 令中国大模型厂商难以企及，而 DeepSeek R1 的亮相，不仅获 OpenAI CEO奥特曼称赞，英伟达也盛赞其为先进的大语言模型。

与 OpenAI 模型闭源及付费使用限制不同，DeepSeek R1 开源且供全球用户免费无限调用。这一举措掀起 AI 风暴，引发全球 AI从业者关注，也带来恐慌与攻击。“大模型开源之王”Meta 内部员工爆料其生成式人工智能部门陷入恐慌，OpenAI 两周内连发三个大模型。同时，1 月 28日凌晨，DeepSeek 官网称线上服务遭大规模恶意攻击。

DeepSeek 打破大模型行业拼算力的固有模式，以不到 OpenAI 十分之一的资源，打造出性能可与 OpenAI o1 媲美的 DeepSeekR1。这引发对 AI 上下游产业发展的思考，资本市场也有所反应，截至 1 月 27日美股收盘，美股科技股大幅下跌，费城半导体指数、英伟达股价均有不同程度下滑。

回顾过往，2023 年春节 ChatGPT 点燃 AI 行业热情，此后每年春节都有热门大模型涌现，2024 年是 Sora，2025 年则是DeepSeek。今年，中国的深度求索站在了舞台中央。DeepSeek 上线 20 天日活突破 2000 万，连续多日登顶苹果 App Store全球下载榜首，冲击了 AI 行业。

DeepSeek 不走大而全路线，而是专注细分与创新。去年 12 月底发布的 V3 模型对标 [GPT-4](https://ai-kit.cn/sites/1023.html)o，仅用 2048 块英伟达 H800 芯片，耗费约560 万美元，远低于 GPT-4o 的训练成本。去年 5 月发布的 DeepSeek-V2 价格仅为 GPT-4 Turbo 的近百分之一，且一年内 3次降价，每次降幅超 85%。

技术创新上，DeepSeek 提出新的 MLA（多头潜在注意力）架构，与 DeepSeek MoESparse（混合专家结构）结合，将显存占用降至其他大模型常用 MHA（多头注意力）架构的5%-13%。同时，通过“数据蒸馏”技术训练模型，用高精度通用大模型作指导，仅需 1/5 数据量即可达到同等效果，有效降低成本。

然而，DeepSeek 也面临诸多压力。登顶中美应用商店 24 小时后，OpenAI指控其未经许可“蒸馏”专有技术，美国多位官员发声支持。此外，DeepSeek 线上服务屡遭攻击，从 SSDP、NTP 反射放大攻击到 HTTP代理攻击，层层升级。

尽管如此，众多企业积极拥抱 DeepSeek。云领域华为云、腾讯云等多平台上线该模型，芯片领域英伟达、AMD等海外巨头及国内天数智芯、摩尔线程等公司也纷纷表示支持。

DeepSeek R1 被视为先进的大语言模型之一，在数学、代码、自然语言推理等任务上性能可与 OpenAI o1 模型正式版比肩。在 AIME 2024数学基准测试和 MATH-500 基准测试中，DeepSeek R1 得分率均高于 OpenAI o1。

其强大推理能力源于技术创新。DeepSeek摒弃传统监督微调（SFT）路径，采用强化学习（RL）优化推理路径，实验证明大模型可完全依靠强化学习获得强大推理能力，无需监督式微调。这一方法先在实验性R1-Zer 版本应用，后在 DeepSeek-V3-base 模型推广，DeepSeek 系列模型展现出自我进化能力。

DeepSeek 还采用创新的 MoE-2048 架构，每个 token 能激活 8 个专家模块，模型参数利用率提升至 72%，训练效率较传统Transformer 架构提高 3 倍。

DeepSeek R1 性能与 GPT o1 相当，但预训练成本仅为 557.6 万美元，为 GPT-4o 的十分之一。其 API 服务定价也远低于OpenAI。

在开源与闭源路线之争中，DeepSeek 的成功为开源路线注入信心。支持开源的 Meta 首席人工智能科学家 Yann LeCun表示，其成功代表开源人工智能模型的胜利。开源使构建模型过程公开，推动大模型行业进步。

DeepSeek 的出现引发市场对大模型行业的诸多质疑，冲击美国科技股资本表现，1 月 27 日英伟达股价大跌，市值蒸发近 6000亿美元。从市场竞争看，它打破原有平衡，挑战传统 AI 巨头，促使行业重新审视技术路线与市场策略。

春节前，DeepSeek 尚不为人熟知，如今其横空出世引发蝴蝶效应。英伟达高级研究科学家 Jim Fan 评价其践行 OpenAI 最初使命。

OpenAI 受到冲击，在开源路线上，奥特曼承认闭源策略有误；训练方式上，DeepSeek打破其定义的训练范式；“尺度定律”也被击破，若能用低成本模型达到类似成绩，OpenAI 商业模式与市场份额将受影响。

为此，OpenAI 迅速调整，2 月 1 日发布 o3-mini 并开放给免费用户，2 月 5 日向 ChatGPT 用户和开发者开放，2 月 6日向所有用户开放 ChatGPT 搜索功能且无需注册。同时，OpenAI 降低 API 调用价格，但 o3-mini 定价仍高于 DeepSeek R1。

此外，1 月 30 日，Anthropic CEO 呼吁“锁死芯片出口”，美国考虑对售华芯片实施额外限制。尽管技术封锁并非长久之计，但以 DeepSeek为代表的中国 AI 企业面临挑战。DeepSeek 带来的变革正重塑 AI 产业链，低成本开发模式或催生新的创新规则与方式，吸引更多创业者。这场由DeepSeek 掀起的变革仍在持续。

# AI快讯

文章版权归作者所有，未经允许请勿转载。