DeepSeek与谷歌模型更新：推理能力角逐与开源闭源格局变化

AI快讯1年前 (2025)发布 niko

AI 模型发展新态势：DeepSeek 与谷歌的较量

曾几何时，谷歌内部发出“我们没有护城河，OpenAI 也没有”的感叹，那时担忧的是 Meta 的开源模型 LLaMA。如今，以 DeepSeek为代表的中国开源势力成为新焦点。美国在 AI 领域的优势也渐被削弱。

近期，DeepSeek 与谷歌均对基础模型进行更新，并融入推理增强技术。DeepSeek 的新版 V3（DeepSeek-V3-0334）参数规模从6710 亿微增至 6850 亿，虽非纯粹推理模型却胜似推理模型。谷歌的 gemini-2.5-Pro 尚处实验版，被视为前沿“思考”模型。

推理模型与基础模型的关系或许只是阶段性现象。OpenAI 曾透露 GPT-5 将融合 GPT-4.5 与 o3。而 DeepSeek与谷歌行动更为迅速，新版 V3 重点增强基础模型推理能力，无思维链；Gemini 2.5 Pro 则是大更新，有思维链，将推理能力完全融入基础模型。

DeepSeek 强调新版 V3 在推理、前端开发、中文写作与搜索方面的优化。在科学、数学与代码等领域，新版 V3 较初版提升显著，与 GPT-4.5不相上下且超越 Claude-Sonnet-3.7，其数学与代码能力在基准测试中排名第一。

模型托管与分析机构 Artificial Analysis 称新版 V3 是目前得分最高的非推理模型，标志开放权重模型成领先非推理模型。不过，AI2的后训练负责人 Nathan Lambert 认为，当下推理模型的差异在于程度与范围。

谷歌发布的 Gemini 2.5 Pro虽命名似基础模型，但有思维链。官方基准测试显示，其在编程、数学和科学测试中领先，“思考”能力源于增强的基础模型与改进的后训练。未来谷歌将把此类思考能力融入旗下所有模型。

对比思考能力，无思维链的新版 V3 不及有思维链的 Gemini-2.5-Pro。因发布时间接近，双方未在官方测评中将对方纳入对比，但都与 GPT-4.5在 GPQA 钻石级、AIME2024 两项基准中做了对比。

在科学领域的 GPQA 钻石级测评中，Gemini-2.5-Pro 得分 84，新版 V3 得分 68，GPT-4.5 得分 71；数学领域的AIME2024 测评中，Gemini-2.5-Pro 得分 92，新版 V3 得分 59，GPT-4.5 得分 37。可见，新版 V3 在基准测试中与Gemini-2.5-Pro 有差距。

然而回归应用场景，考虑性价比，新版 V3 竞争力十足。今年或成人类编程能力被 AI 永久超越之年，新版 V3 低成本编码能力提升令人关注。其 APi调用价格远低于 Claude-Sonnet-3.7，而 Gemini-2.5-Pro 目前仅对高级用户开放，规模应用定价未公布。

新版 V3 开源，可微调、商用，还能本地部署于苹果最新款基于 M3 Ultra 的 Mac StUdio，每秒跑出 20 个token。其提升了代码执行效率、前端设计感，工具使用能力更智能。有用户对比发现，DeepSeek 制作的小游戏“象棋 AI 对手更聪明且有音效”。

Gemini-2.5-Pro 对谷歌意义重大，是仅次于 Gemini 3 的大更新，拉高市场对相关模型或应用性能提升的期待。而 DeepSeek以共享态度对待新版 V3，且无相关论文。

谷歌拥有强大 AI 应用生态，需强大模型支持。Gemini-2.5-Pro 推出即登顶 Arena 排行榜第 1且优势明显。今年谷歌对多个模型升级扩展功能，围堵 OpenAI，OpenAI 也在努力产品化与垂直整合。

但美国闭源生态面临中国开源 AI 冲击。DeepSeek 掀起中国企业开源潮流，为美国 AI商业化带来压力。中国大模型降价，外卷趋势显现。美国开源模型进展缓慢，引发反思，担心全球计算生态转向中国架构。

谷歌的 Gemma 3 曾是最好的非推理开源模型，但很快被新版 V3 超越。DeepSeek 不断证明，谷歌乃至美国在 AI领域的优势正逐渐成为暂时领先，与对手呈现交错领先局面。

# AI快讯

文章版权归作者所有，未经允许请勿转载。