DeepGEMM：专为Hopper架构GPU优化的高性能矩阵乘法库

AI快讯1年前 (2025)发布 niko

DeepSeek开源周新成果：DeepGEMM矩阵乘法库亮相

在DeepSeek开源周的第三天，一款备受瞩目的产品——专为Hopper架构GPU优化的矩阵乘法库DeepGEMM正式登场。这一创新成果为深度学习领域带来了新的活力。

DeepGEMM的卓越性能与功能特性

DeepGEMM支持标准矩阵计算以及混合专家模型（MoE）计算，为DeepSeek-V3/R1的训练和推理提供了坚实有力的支持。在HopperGPU上，它展现出了惊人的高性能，达到1350+FP8TFLOPS。而且，其设计理念简洁高效，核心代码仅约300行，却在多数矩阵尺寸下性能超越现有解决方案。

数据排列方式与即时编译技术优势

该库支持三种数据排列方式，其中两种专为混合专家模型设计。同时，DeepGEMM采用即时编译技术，无需安装时编译，代码结构清晰，便于学习GPU优化技术。在各种计算场景中，DeepGEMM都表现出色，标准矩阵乘法速度提升显著，混合专家模型计算也有明显优势。

关键技术解析：FP8与GEMM

在计算机领域，数值存储方式影响精度与资源占用。8位浮点数（FP8）虽精度降低，但能减少内存使用并提高计算速度。GEMM（通用矩阵乘法）是深度学习基础操作，DeepGEMM专门优化了FP8精度的矩阵乘法，解决了Hopper架构在处理FP8计算时的精度问题。

标准矩阵乘法与混合专家模型计算差异

标准矩阵乘法适用于传统神经网络架构，而混合专家模型（MoE）是特殊神经网络架构，包含多个“专家”网络和“门控”网络。针对MoE模型，DeepGEMM提供了连续排列和掩码排列两种特殊数据排列方式，分别适用于不同阶段。

Hopper GPU与张量核心的助力

NVIDIA的HopperGPU专为人工智能和高性能计算设计，其张量核心支持FP8计算，性能更优。TMA（张量内存加速器）是Hopper架构新功能，DeepGEMM充分利用该技术提升性能。

即时编译技术的多重优势

即时编译（Just-In-Time）技术让DeepGEMM在运行时编译，可节省计算资源、自动选择最佳参数配置，还能提高小矩阵形状计算性能。

CUDA与CUTLASS的关联

CUDA是NVIDIA开发的并行计算平台和编程模型，CUTLASS是开源矩阵乘法库。DeepGEMM借鉴了CUTLASS思路，却实现了更简洁代码。

线程专业化技术提升效率

DeepGEMM采用线程专业化技术，不同计算线程分工明确，形成高效流水线，提高整体性能。

DeepGEMM的技术创新点

DeepGEMM有诸多创新，如支持非标准块大小，实现指令级优化，设计统一调度系统，这些技术提高了硬件资源利用率和计算性能。

DeepGEMM的使用与展望

使用DeepGEMM需特定环境支持，它提供了清晰的Python编程接口和实用工具函数。目前它针对Hopper架构GPU优化，未来有望扩展到更多硬件平台。

文章版权归作者所有，未经允许请勿转载。