Deepseek开源的DeepEP通信库助力混合专家模型全栈优化

AI快讯1小时前发布 niko
0 0
AiPPT - 一键生成ppt

DeepSeek在开源周第二天推出重大成果,首个面向混合专家(MoE)模型的开源EP通信库——DeepEP亮相,为该领域的训练与推理带来全栈优化新方案。

DeepEP,作为专为混合专家(MoE)和专家并行(EP)精心打造的高效通信库,聚焦于提供高吞吐量、低延迟的多对多GPU内核,也就是常见的MoE调度和组合。

DeepEP在功能特性上表现卓越。它不仅支持FP8等低精度操作,还与DeepSeek-V3论文提出的组限制门控算法契合,对不对称域带宽转发的内核进行优化,像从NVLINK域到RDMA域的数据转发。这些内核吞吐量高,对训练和推理预填充任务极为适用,且能控制流处理器数量。

在延迟敏感的推理解码任务方面,DeepEP也有独到之处。它包含一组低延迟内核,借助纯RDMA将延迟减到最小。并且,DeepEP引入基于钩子的通信 -计算重叠方法,此方法不会占用流处理器资源。

性能测试中,DeepEP在H800和CX7 InfiniBand 400Gb/sRDMA网络卡上历经多项测试。结果显示,正常内核在内节点和跨节点的带宽表现出色,低延迟内核在延迟和带宽方面均达预期。例如,处理8个专家时,低延迟内核延迟为163微秒,带宽为46GB/s。

DeepEP兼容性良好,主要与InfiniBand网络兼容,理论上也支持在收敛以太网(RoCE)运行。为避免不同流量类型干扰,建议在不同虚拟通道隔离流量,保障正常内核和低延迟内核互不影响。

DeepEP作为为混合专家模型提供高效通信解决方案的关键工具,凭借优化性能、降低延迟和灵活配置等特点,在相关领域极具价值。项目入口:https://x.com/deepseek_ai/status/1894211757604049133

© 版权声明
智谱清言 - 国产最强AI模型