DeepGEMM震撼开源,开启算力新征程DeepSeek开源周的第三弹——高性能矩阵计算库DeepGEMM正式亮相。这个被誉为“AI数学加速器”的工具,专为提升大模型训练与推理速度而打造。
FP8精度实现算力突破DeepGEMM采用8位浮点数(FP8)格式,如同用“小杯装水”替代“大桶储水”,牺牲微小精度换取3倍以上速度提升。在Hopper架构GPU上,实现了FP8精度下1350+TFLOPS的恐怖算力,远超市面主流显卡。
极简代码成就高性能 核心逻辑仅需300行代码,通过全流程JIT编译优化,实现比手工调优算子更高效能。无额外依赖项,开发者可快速集成至现有框架。
双模式支持适配全场景DeepGEMM同时支持稠密矩阵布局和混合MoE布局,灵活应对不同模型需求。无论是全量数据统一计算,还是分任务处理,都能轻松应对。
低精度计算优势尽显 FP8的低精度计算大幅降低显存占用和功耗,让万亿参数大模型在24G显存单卡上也能跑出28倍推理加速。
MoE优化提升效率 通过连续/掩码双布局,解决专家模型计算中的通信瓶颈,让万亿参数MoE推理“快如闪电”。
构建全栈开源Infra体系 随着DeepGEMM的开源,DeepSeekR2模型(预计5月发布)的算力瓶颈将进一步突破。未来,DeepSeek正构建一套全栈开源Infra体系,让AI创新不再受制于算力成本。
DeepSeek其他动态 DeepSeek正在加速推出1月发布的R1模型升级版—DeepSeekR2。同时,DeepSeek重新开放了APi充值入口,deepseek-chat模型调用价格已变更。
© 版权声明
文章版权归作者所有,未经允许请勿转载。