AI 模型发展新态势:DeepSeek 与谷歌的较量
曾几何时,谷歌内部发出“我们没有护城河,OpenAI 也没有”的感叹,那时担忧的是 Meta 的开源模型 LLaMA。如今,以 DeepSeek为代表的中国开源势力成为新焦点。美国在 AI 领域的优势也渐被削弱。
近期,DeepSeek 与谷歌均对基础模型进行更新,并融入推理增强技术。DeepSeek 的新版 V3(DeepSeek-V3-0334)参数规模从6710 亿微增至 6850 亿,虽非纯粹推理模型却胜似推理模型。谷歌的 gemini-2.5-Pro 尚处实验版,被视为前沿“思考”模型。
推理模型与基础模型的关系或许只是阶段性现象。OpenAI 曾透露 GPT-5 将融合 GPT-4.5 与 o3。而 DeepSeek与谷歌行动更为迅速,新版 V3 重点增强基础模型推理能力,无思维链;Gemini 2.5 Pro 则是大更新,有思维链,将推理能力完全融入基础模型。
DeepSeek 强调新版 V3 在推理、前端开发、中文写作与搜索方面的优化。在科学、数学与代码等领域,新版 V3 较初版提升显著,与 GPT-4.5不相上下且超越 Claude-Sonnet-3.7,其数学与代码能力在基准测试中排名第一。
模型托管与分析机构 Artificial Analysis 称新版 V3 是目前得分最高的非推理模型,标志开放权重模型成领先非推理模型。不过,AI2的后训练负责人 Nathan Lambert 认为,当下推理模型的差异在于程度与范围。
谷歌发布的 Gemini 2.5 Pro虽命名似基础模型,但有思维链。官方基准测试显示,其在编程、数学和科学测试中领先,“思考”能力源于增强的基础模型与改进的后训练。未来谷歌将把此类思考能力融入旗下所有模型。
对比思考能力,无思维链的新版 V3 不及有思维链的 Gemini-2.5-Pro。因发布时间接近,双方未在官方测评中将对方纳入对比,但都与 GPT-4.5在 GPQA 钻石级、AIME2024 两项基准中做了对比。
在科学领域的 GPQA 钻石级测评中,Gemini-2.5-Pro 得分 84,新版 V3 得分 68,GPT-4.5 得分 71;数学领域的AIME2024 测评中,Gemini-2.5-Pro 得分 92,新版 V3 得分 59,GPT-4.5 得分 37。可见,新版 V3 在基准测试中与Gemini-2.5-Pro 有差距。
然而回归应用场景,考虑性价比,新版 V3 竞争力十足。今年或成人类编程能力被 AI 永久超越之年,新版 V3 低成本编码能力提升令人关注。其 APi调用价格远低于 Claude-Sonnet-3.7,而 Gemini-2.5-Pro 目前仅对高级用户开放,规模应用定价未公布。
新版 V3 开源,可微调、商用,还能本地部署于苹果最新款基于 M3 Ultra 的 Mac StUdio,每秒跑出 20 个token。其提升了代码执行效率、前端设计感,工具使用能力更智能。有用户对比发现,DeepSeek 制作的小游戏“象棋 AI 对手更聪明且有音效”。
Gemini-2.5-Pro 对谷歌意义重大,是仅次于 Gemini 3 的大更新,拉高市场对相关模型或应用性能提升的期待。而 DeepSeek以共享态度对待新版 V3,且无相关论文。
谷歌拥有强大 AI 应用生态,需强大模型支持。Gemini-2.5-Pro 推出即登顶 Arena 排行榜第 1且优势明显。今年谷歌对多个模型升级扩展功能,围堵 OpenAI,OpenAI 也在努力产品化与垂直整合。
但美国闭源生态面临中国开源 AI 冲击。DeepSeek 掀起中国企业开源潮流,为美国 AI商业化带来压力。中国大模型降价,外卷趋势显现。美国开源模型进展缓慢,引发反思,担心全球计算生态转向中国架构。
谷歌的 Gemma 3 曾是最好的非推理开源模型,但很快被新版 V3 超越。DeepSeek 不断证明,谷歌乃至美国在 AI领域的优势正逐渐成为暂时领先,与对手呈现交错领先局面。