DeepSeek-V3-Base开源模型面市：在AI编程测试中性能提升显著

DeepSeek-V3-Base开源：编程能力激增近31％

混合专家模型DeepSeek-V3-Base的发布

到了2024年底，一家致力于探索通用人工智能（AGI）本质的公司，DeepSeek AI，开源了他們最新的混合专家（MoE）语言模型DeepSeek-V3-Base。遗憾的是，详细的模型规格卡尚未公布。
– HuggingFace下载地址：DeepSeek-V3-Base

DeepSeek-V3-Base模型概述

DeepSeek-V3-Base采用了685B参数的MoE架构，包含256个专家，并使用了sigmoid路由方式，并在每次选择中取前8个专家(topk=8)。
– 图源：X@arankomatsuzaki
众多专家的应用使得模型在处理任何给定输入时，只有小部分专家处于活跃状态，这使得模型具有很高的稀疏性。
– 图源：X@Rohan Paul

DeepSeek-V3-Base性能反馈

从用户反馈来看，API和聊天界面已经升级为DeepSeek-V3模型版本。
– 图源：X@ruben_kostard
– 图源：X@Micadep

性能评测：DeepSeek-V3-Base的表现如何？

想了解其性能，我们可以借助Aider多语言编程测评结果。
Aider多语言基准测试要求大语言模型（LLM）编辑源文件来完成源自Exercism的225道编程题，这些题目覆盖了C++、Go、Java、JavaScript、Python和Rust等众多编程语言。这225道精心挑选的编程题为LLM提供了相当大的编程能力挑战。
该基准旨在衡量LLM在流行编程语言中的编码能力，以及它们处理全新代码集成的能力。

各模型比较结果

通过下一次表的形式，可以看到DeepSeek-V3-Base模型仅次于OpenAI o1-2024-12-17 (high)，并超越了如claude-3.5-sonnet-20241022、Gemini-Exp-1206、o1-mini-2024-09-12、gemini-2.0-flash-exp等竞品模型以及其前代DeepSeek Chat V2.5。
与V2.5（17.8%）相比，V3编程性能提升至48.4%，实现了近31%的增长。
– 图源：reddit@homeworkkun

LiveBench基准测试结果

DeepSeek-V3的LiveBench基准测试结果也疑似流出。结果显示，模型在整体、推理、编程、数学、数据分析、语言和IF评分方面均是非常具有竞争力的，并超过了如gemini-2.0-flash-exp和Claude 3.5 Sonnet等模型。

DeepSeek-V3版本变化总结

根据HuggingFace上的GPU Poor数据科学家Vaibhav (VB) Srivastav所总结，v3相较于v2的重要差异主要包括：
– vocab_size：v2: 102400，v3: 129280
– hidden_size：v2: 4096，v3: 7168
– intermediate_size：v2: 11008，v3: 18432
– 隐藏层数量：v2：30，v3：61
– 注意力头数量：v2：32，v3：128
– 最大位置嵌入：v2：2048，v3：4096
v3似乎是对v2的增强版。
– 图源：X@reach_vb

特别值得注意的是，在模型评分函数上，v3采用了sigmoid函数，而v2则采用的是softmax函数。