DeepSeek开源周发布FlashMLA，为AI推理带来全新突破

AI快讯1年前 (2025)发布 niko

DeepSeek开源周带来新惊喜 北京时间周一上午九点，DeepSeek开源周拉开帷幕，首个开源项目FlashMLA正式公布，引发全球开发者关注。

FlashMLA的独特设计 FlashMLA是DeepSeek针对英伟达HopperGPU打造的高效MLA解码内核，旨在优化可变长度序列的推理服务。其设计借鉴了Flash Attention2和3以及英伟达cutlass库的思路，专为大语言模型解码阶段优化。

卓越的性能表现 在H800SXM5平台上，FlashMLA可达3000GB/s的内存带宽和580TFLOPS的计算性能，接近硬件理论极限，代表了当前AI计算领域的顶级水准。

广泛的应用场景 FlashMLA适用于低延迟应用、批处理和研发加速等场景，尤其在智能助手、翻译和文本生成等实时处理可变长度序列的应用中表现出色。

成本优化与可扩展性DeepSeek-V3采用MLA和DeepSeekMoE，实现高效推理和成本节约。FlashMLA在支持大规模、高效率语言模型方面发挥重要作用，顺应了AI发展追求经济效益的趋势。

开源精神与行业影响FlashMLA的开源展示了DeepSeek的开放精神，推动了技术普及和社区协作。尽管兼容性有限，但为其他项目提供了思路，期待未来更多开源成果。

文章版权归作者所有，未经允许请勿转载。