DeepSeek开源周发布FlashMLA，为英伟达Hopper架构GPU带来高效解码内核

DeepSeek在开源周首日，正式将其最新技术成果FlashMLA开源。这一成果是专门为英伟达Hopper架构GPU量身打造的高效多层注意力解码内核。值得关注的是，FlashMLA针对变长序列场景进行了优化，能够显著增强大模型的推理性能。

FlashMLA具备核心技术特性，全面支持BF16精度，采用块大小为64的页式键值缓存系统，以此达成更精准的内存管理。在性能方面，基于CUDA12.6平台，于H800SXM5GPU上表现出色：内存受限场景下处理速度可达3000GB/s，计算受限场景下实现580TFLOPS的算力水平。

经过生产环境验证，FlashMLA展现出卓越的稳定性。开发团队表明，其设计借鉴了FlashAttention2&3和cutlass等项目的优秀经验，并实现了创新突破。

对于开发者而言，部署FlashMLA十分简便，执行“python setup.py install”命令即可完成安装。之后运行测试脚本“pythontests/test_flash_mla.py”，就能体验其性能。

该项目开源地址为：https://github.com/deepseek-ai/FlashMLA

文章版权归作者所有，未经允许请勿转载。