Deepseek开源的DeepEP通信库助力混合专家模型全栈优化

DeepSeek在开源周第二天推出重大成果，首个面向混合专家（MoE）模型的开源EP通信库——DeepEP亮相，为该领域的训练与推理带来全栈优化新方案。

DeepEP，作为专为混合专家（MoE）和专家并行(EP)精心打造的高效通信库，聚焦于提供高吞吐量、低延迟的多对多GPU内核，也就是常见的MoE调度和组合。

DeepEP在功能特性上表现卓越。它不仅支持FP8等低精度操作，还与DeepSeek-V3论文提出的组限制门控算法契合，对不对称域带宽转发的内核进行优化，像从NVLINK域到RDMA域的数据转发。这些内核吞吐量高，对训练和推理预填充任务极为适用，且能控制流处理器数量。

在延迟敏感的推理解码任务方面，DeepEP也有独到之处。它包含一组低延迟内核，借助纯RDMA将延迟减到最小。并且，DeepEP引入基于钩子的通信 -计算重叠方法，此方法不会占用流处理器资源。

性能测试中，DeepEP在H800和CX7 InfiniBand 400Gb/sRDMA网络卡上历经多项测试。结果显示，正常内核在内节点和跨节点的带宽表现出色，低延迟内核在延迟和带宽方面均达预期。例如，处理8个专家时，低延迟内核延迟为163微秒，带宽为46GB/s。

DeepEP兼容性良好，主要与InfiniBand网络兼容，理论上也支持在收敛以太网（RoCE）运行。为避免不同流量类型干扰，建议在不同虚拟通道隔离流量，保障正常内核和低延迟内核互不影响。

DeepEP作为为混合专家模型提供高效通信解决方案的关键工具，凭借优化性能、降低延迟和灵活配置等特点，在相关领域极具价值。项目入口:https://x.com/deepseek_ai/status/1894211757604049133

文章版权归作者所有，未经允许请勿转载。