DeepSeek 超越 OpenAI，开源大模型引领新潮流

AI快讯1年前 (2025)发布 niko

开源 AI 领域迎来重大时刻，DeepSeek 项目在 GitHub 上的 Star 量成功超越OpenAI，成为行业焦点。截至本周五下午两点，DeepSeek 旗下热门项目 DeepSeek-V3 大模型的 Star 量达到 7.77 万，超越了OpenAI 在该平台的最热门项目。

去年 12 月 26 日，DeepSeek AI 开源的 DeepSeek-V3 大语言模型，迅速成为通用语言模型的性能典范，引发全球 AI社区广泛关注。该模型引入动态注意力机制，能实时调整注意力权重，有效优化文本生成质量。其采用的 MoE 架构包含 6710 亿参数，但每 Token 仅激活370 亿参数，极大降低了计算成本，训练成本仅为同类闭源模型的 1/20。

技术报告显示，DeepSeek-V3 的预训练过程仅花费 266.4 万 H800 GPU Hours，加上上下文扩展与后训练共 278.8 H800GPU Hours，训练成本 557.6 万美元。相比之下，Llama 3 的训练预算约为 3930 万 H100 GPU Hours。

1 月 23 日，DeepSeek 以 V3 为基础，运用强化学习驱动重构训练范式，推出 DeepSeek-R1，给开源 AI世界带来变革。DeepSeek R1 性能对标 OpenAI o1，与 DeepSeek V3 相比性能显著提升。其论文表明，纯强化学习可赋予 LLM强推理能力，无需大量监督微调，震动 AI 业界。

从技术层面看，DeepSeek 展现了国内科研团队的创新实力，在 Scaling Laws 之后开启大模型发展新范式，大幅降低 AI对算力的依赖，通过自我进化平衡数据优势。而且，R1 支持将推理能力迁移至更小模型，为边缘计算和即时应用创造诸多可能。

OpenAI 自 GPT-3 起未开源基础 AI 大模型，其热门开源项目有 openai-cookbook，即使用 OpenAI API完成常见任务的示例代码和指南，以及 2022 年 9 月开源的通用语音识别模型 Whisper。同属开源大模型的 Llama 系列最高星数 5.75万，阿里云的 Qwen2.5 有 1.49 万 Star，零一万物的 Yi 有 7800 Star。

DeepSeek V3 和 R1 的发布为全球大模型社区注入活力，在 AI 研究领域，围绕 R1 核心强化学习方法 GRPO 的研究已出现。DeepSeek的开源策略为应用带来众多机会，虽 DeepSeek App 官方报告遭高频次网络攻击，但国内阿里云、华为云等多个平台已宣布上线 DeepSeek大模型，海外英伟达、亚马逊和微软云服务也接入了 DeepSeek R1。

DeepSeek 系列模型被视为先进的大语言模型之一，随着技术开源推进，生成式 AI 有望迎来更快发展。

# AI快讯

文章版权归作者所有，未经允许请勿转载。