DeepGEMM开源:支持密集和MoE GEMM的FP8 GEMM库,性能强劲

AI快讯3小时前发布 niko
0 0
豆包 - 字节AI智能助手

DeepGEMM发布,助力V3/R1训练和推理2月26日,DeepSeek开源周第三弹推出了DeepGEMM,这是一款为干净、高效的FP8通用矩阵乘法(GEMM)设计的库,具备细粒度扩展功能,能为V3/R1训练和推理提供动力。

DeepGEMM的卓越性能与特性 它在Hopper GPU上性能出众,可达1350+ FP8TFLOPS。该库没有过多依赖,采用完全JIT即时编译,安装无需预编译。核心逻辑约300行,却在多数矩阵大小上表现出色。同时,它支持密集(Dense)布局和两种MoE布局。

运算速度显著提升根据数据,普通GEMM(密集模型)中矩阵运算可提速多达2.7倍,分组GEMM(MoE模型)在连续性布局、掩码布局下可提速多达1.2倍。

设计理念与技术支撑 DeepGEMM虽利用了CUTLASS和CuTe的一些概念,但避免过度依赖。它专为解决不精确的FP8 TensorCore累积问题,采用CUDA核心两级累积(提升),且仅支持英伟达Hopper Tensor Core。

开发与安装指引 DeepSeek分享了清晰的上手指南,对硬件和软件都有一定要求,如需要Hopper架构GPU、支持sm_90a ,Python3.8、CUDA 12.3、PyTorch 2.1、CUTLASS 3.6或更新版本等。安装时,将deep_gemm导入Python项目即可使用。

技术优化亮点多 从技术优化来看,DeepGEMM利用了HopperTMA功能实现多种数据移动目的,在常见细节方面进行优化,拥有统一优化的块调度器,采用完全JIT设计,还支持块大小不对齐技术来提升性能。

© 版权声明
智谱清言 - 国产最强AI模型