DeepGEMM开源：高性能矩阵计算库突破算力极限

AI快讯1年前 (2025)发布 niko

DeepGEMM震撼开源，开启算力新征程DeepSeek开源周的第三弹——高性能矩阵计算库DeepGEMM正式亮相。这个被誉为“AI数学加速器”的工具，专为提升大模型训练与推理速度而打造。

FP8精度实现算力突破DeepGEMM采用8位浮点数（FP8）格式，如同用“小杯装水”替代“大桶储水”，牺牲微小精度换取3倍以上速度提升。在Hopper架构GPU上，实现了FP8精度下1350+TFLOPS的恐怖算力，远超市面主流显卡。

极简代码成就高性能 核心逻辑仅需300行代码，通过全流程JIT编译优化，实现比手工调优算子更高效能。无额外依赖项，开发者可快速集成至现有框架。

双模式支持适配全场景DeepGEMM同时支持稠密矩阵布局和混合MoE布局，灵活应对不同模型需求。无论是全量数据统一计算，还是分任务处理，都能轻松应对。

低精度计算优势尽显 FP8的低精度计算大幅降低显存占用和功耗，让万亿参数大模型在24G显存单卡上也能跑出28倍推理加速。

MoE优化提升效率 通过连续/掩码双布局，解决专家模型计算中的通信瓶颈，让万亿参数MoE推理“快如闪电”。

构建全栈开源Infra体系 随着DeepGEMM的开源，DeepSeekR2模型（预计5月发布）的算力瓶颈将进一步突破。未来，DeepSeek正构建一套全栈开源Infra体系，让AI创新不再受制于算力成本。

DeepSeek其他动态 DeepSeek正在加速推出1月发布的R1模型升级版—DeepSeekR2。同时，DeepSeek重新开放了APi充值入口，deepseek-chat模型调用价格已变更。

文章版权归作者所有，未经允许请勿转载。