DeepSeek R1 引领大模型创新变革,掀起 AI 行业风暴

AI快讯2周前发布 niko
14 0
AiPPT - 一键生成ppt

今年春节,一款中国大模型——DeepSeek R1 于全球 AI 圈引发热议,其直接对标 OpenAI 去年 9 月推出的 OpenAI o1 系列模型。

DeepSeek 的火爆程度可见一斑。1 月 27 日,它在中国区和美国区苹果 App Store 免费榜上下载量登顶,单周下载量高达约 240万次。此前,OpenAI o1 令中国大模型厂商难以企及,而 DeepSeek R1 的亮相,不仅获 OpenAI CEO奥特曼称赞,英伟达也盛赞其为先进的大语言模型。

与 OpenAI 模型闭源及付费使用限制不同,DeepSeek R1 开源且供全球用户免费无限调用。这一举措掀起 AI 风暴,引发全球 AI从业者关注,也带来恐慌与攻击。“大模型开源之王”Meta 内部员工爆料其生成式人工智能部门陷入恐慌,OpenAI 两周内连发三个大模型。同时,1 月 28日凌晨,DeepSeek 官网称线上服务遭大规模恶意攻击。

DeepSeek 打破大模型行业拼算力的固有模式,以不到 OpenAI 十分之一的资源,打造出性能可与 OpenAI o1 媲美的 DeepSeekR1。这引发对 AI 上下游产业发展的思考,资本市场也有所反应,截至 1 月 27日美股收盘,美股科技股大幅下跌,费城半导体指数、英伟达股价均有不同程度下滑。

回顾过往,2023 年春节 ChatGPT 点燃 AI 行业热情,此后每年春节都有热门大模型涌现,2024 年是 Sora,2025 年则是DeepSeek。今年,中国的深度求索站在了舞台中央。DeepSeek 上线 20 天日活突破 2000 万,连续多日登顶苹果 App Store全球下载榜首,冲击了 AI 行业。

DeepSeek 不走大而全路线,而是专注细分与创新。去年 12 月底发布的 V3 模型对标 [GPT-4](https://ai-kit.cn/sites/1023.html)o,仅用 2048 块英伟达 H800 芯片,耗费约560 万美元,远低于 GPT-4o 的训练成本。去年 5 月发布的 DeepSeek-V2 价格仅为 GPT-4 Turbo 的近百分之一,且一年内 3次降价,每次降幅超 85%。

技术创新上,DeepSeek 提出新的 MLA(多头潜在注意力)架构,与 DeepSeek MoESparse(混合专家结构)结合,将显存占用降至其他大模型常用 MHA(多头注意力)架构的5%-13%。同时,通过“数据蒸馏”技术训练模型,用高精度通用大模型作指导,仅需 1/5 数据量即可达到同等效果,有效降低成本。

然而,DeepSeek 也面临诸多压力。登顶中美应用商店 24 小时后,OpenAI指控其未经许可“蒸馏”专有技术,美国多位官员发声支持。此外,DeepSeek 线上服务屡遭攻击,从 SSDP、NTP 反射放大攻击到 HTTP代理攻击,层层升级。

尽管如此,众多企业积极拥抱 DeepSeek。云领域华为云、腾讯云等多平台上线该模型,芯片领域英伟达、AMD等海外巨头及国内天数智芯、摩尔线程等公司也纷纷表示支持。

DeepSeek R1 被视为先进的大语言模型之一,在数学、代码、自然语言推理等任务上性能可与 OpenAI o1 模型正式版比肩。在 AIME 2024数学基准测试和 MATH-500 基准测试中,DeepSeek R1 得分率均高于 OpenAI o1。

其强大推理能力源于技术创新。DeepSeek摒弃传统监督微调(SFT)路径,采用强化学习(RL)优化推理路径,实验证明大模型可完全依靠强化学习获得强大推理能力,无需监督式微调。这一方法先在实验性R1-Zer 版本应用,后在 DeepSeek-V3-base 模型推广,DeepSeek 系列模型展现出自我进化能力。

DeepSeek 还采用创新的 MoE-2048 架构,每个 token 能激活 8 个专家模块,模型参数利用率提升至 72%,训练效率较传统Transformer 架构提高 3 倍。

DeepSeek R1 性能与 GPT o1 相当,但预训练成本仅为 557.6 万美元,为 GPT-4o 的十分之一。其 API 服务定价也远低于OpenAI。

在开源与闭源路线之争中,DeepSeek 的成功为开源路线注入信心。支持开源的 Meta 首席人工智能科学家 Yann LeCun表示,其成功代表开源人工智能模型的胜利。开源使构建模型过程公开,推动大模型行业进步。

DeepSeek 的出现引发市场对大模型行业的诸多质疑,冲击美国科技股资本表现,1 月 27 日英伟达股价大跌,市值蒸发近 6000亿美元。从市场竞争看,它打破原有平衡,挑战传统 AI 巨头,促使行业重新审视技术路线与市场策略。

春节前,DeepSeek 尚不为人熟知,如今其横空出世引发蝴蝶效应。英伟达高级研究科学家 Jim Fan 评价其践行 OpenAI 最初使命。

OpenAI 受到冲击,在开源路线上,奥特曼承认闭源策略有误;训练方式上,DeepSeek打破其定义的训练范式;“尺度定律”也被击破,若能用低成本模型达到类似成绩,OpenAI 商业模式与市场份额将受影响。

为此,OpenAI 迅速调整,2 月 1 日发布 o3-mini 并开放给免费用户,2 月 5 日向 ChatGPT 用户和开发者开放,2 月 6日向所有用户开放 ChatGPT 搜索功能且无需注册。同时,OpenAI 降低 API 调用价格,但 o3-mini 定价仍高于 DeepSeek R1。

此外,1 月 30 日,Anthropic CEO 呼吁“锁死芯片出口”,美国考虑对售华芯片实施额外限制。尽管技术封锁并非长久之计,但以 DeepSeek为代表的中国 AI 企业面临挑战。DeepSeek 带来的变革正重塑 AI 产业链,低成本开发模式或催生新的创新规则与方式,吸引更多创业者。这场由DeepSeek 掀起的变革仍在持续。

© 版权声明
智谱清言 - 国产最强AI模型
AiPPT - 一键生成ppt