DeepGEMM开源：支持密集和MoE GEMM的FP8 GEMM库，性能强劲

AI快讯1年前 (2025)发布 niko

DeepGEMM发布，助力V3/R1训练和推理2月26日，DeepSeek开源周第三弹推出了DeepGEMM，这是一款为干净、高效的FP8通用矩阵乘法（GEMM）设计的库，具备细粒度扩展功能，能为V3/R1训练和推理提供动力。

DeepGEMM的卓越性能与特性 它在Hopper GPU上性能出众，可达1350+ FP8TFLOPS。该库没有过多依赖，采用完全JIT即时编译，安装无需预编译。核心逻辑约300行，却在多数矩阵大小上表现出色。同时，它支持密集（Dense）布局和两种MoE布局。

运算速度显著提升根据数据，普通GEMM（密集模型）中矩阵运算可提速多达2.7倍，分组GEMM（MoE模型）在连续性布局、掩码布局下可提速多达1.2倍。

设计理念与技术支撑 DeepGEMM虽利用了CUTLASS和CuTe的一些概念，但避免过度依赖。它专为解决不精确的FP8 TensorCore累积问题，采用CUDA核心两级累积（提升），且仅支持英伟达Hopper Tensor Core。

开发与安装指引 DeepSeek分享了清晰的上手指南，对硬件和软件都有一定要求，如需要Hopper架构GPU、支持sm_90a ，Python3.8、CUDA 12.3、PyTorch 2.1、CUTLASS 3.6或更新版本等。安装时，将deep_gemm导入Python项目即可使用。

技术优化亮点多 从技术优化来看，DeepGEMM利用了HopperTMA功能实现多种数据移动目的，在常见细节方面进行优化，拥有统一优化的块调度器，采用完全JIT设计，还支持块大小不对齐技术来提升性能。

文章版权归作者所有，未经允许请勿转载。