DeepSeek 超越 OpenAI,开源大模型引领新潮流

AI快讯2周前发布 niko
7 0
AiPPT - 一键生成ppt

开源 AI 领域迎来重大时刻,DeepSeek 项目在 GitHub 上的 Star 量成功超越OpenAI,成为行业焦点。截至本周五下午两点,DeepSeek 旗下热门项目 DeepSeek-V3 大模型的 Star 量达到 7.77 万,超越了OpenAI 在该平台的最热门项目。

去年 12 月 26 日,DeepSeek AI 开源的 DeepSeek-V3 大语言模型,迅速成为通用语言模型的性能典范,引发全球 AI社区广泛关注。该模型引入动态注意力机制,能实时调整注意力权重,有效优化文本生成质量。其采用的 MoE 架构包含 6710 亿参数,但每 Token 仅激活370 亿参数,极大降低了计算成本,训练成本仅为同类闭源模型的 1/20。

技术报告显示,DeepSeek-V3 的预训练过程仅花费 266.4 万 H800 GPU Hours,加上上下文扩展与后训练共 278.8 H800GPU Hours,训练成本 557.6 万美元。相比之下,Llama 3 的训练预算约为 3930 万 H100 GPU Hours。

1 月 23 日,DeepSeek 以 V3 为基础,运用强化学习驱动重构训练范式,推出 DeepSeek-R1,给开源 AI世界带来变革。DeepSeek R1 性能对标 OpenAI o1,与 DeepSeek V3 相比性能显著提升。其论文表明,纯强化学习可赋予 LLM强推理能力,无需大量监督微调,震动 AI 业界。

从技术层面看,DeepSeek 展现了国内科研团队的创新实力,在 Scaling Laws 之后开启大模型发展新范式,大幅降低 AI对算力的依赖,通过自我进化平衡数据优势。而且,R1 支持将推理能力迁移至更小模型,为边缘计算和即时应用创造诸多可能。

OpenAI 自 GPT-3 起未开源基础 AI 大模型,其热门开源项目有 openai-cookbook,即使用 OpenAI API完成常见任务的示例代码和指南,以及 2022 年 9 月开源的通用语音识别模型 Whisper。同属开源大模型的 Llama 系列最高星数 5.75万,阿里云的 Qwen2.5 有 1.49 万 Star,零一万物的 Yi 有 7800 Star。

DeepSeek V3 和 R1 的发布为全球大模型社区注入活力,在 AI 研究领域,围绕 R1 核心强化学习方法 GRPO 的研究已出现。DeepSeek的开源策略为应用带来众多机会,虽 DeepSeek App 官方报告遭高频次网络攻击,但国内阿里云、华为云等多个平台已宣布上线 DeepSeek大模型,海外英伟达、亚马逊和微软云服务也接入了 DeepSeek R1。

DeepSeek 系列模型被视为先进的大语言模型之一,随着技术开源推进,生成式 AI 有望迎来更快发展。

© 版权声明
智谱清言 - 国产最强AI模型