DeepSeek开源周发布FlashMLA,为英伟达Hopper架构GPU带来高效解码内核

AI快讯5小时前发布 niko
0 0
AiPPT - 一键生成ppt

DeepSeek在开源周首日,正式将其最新技术成果FlashMLA开源。这一成果是专门为英伟达Hopper架构GPU量身打造的高效多层注意力解码内核。值得关注的是,FlashMLA针对变长序列场景进行了优化,能够显著增强大模型的推理性能。

FlashMLA具备核心技术特性,全面支持BF16精度,采用块大小为64的页式键值缓存系统,以此达成更精准的内存管理。在性能方面,基于CUDA12.6平台,于H800SXM5GPU上表现出色:内存受限场景下处理速度可达3000GB/s,计算受限场景下实现580TFLOPS的算力水平。

经过生产环境验证,FlashMLA展现出卓越的稳定性。开发团队表明,其设计借鉴了FlashAttention2&3和cutlass等项目的优秀经验,并实现了创新突破。

对于开发者而言,部署FlashMLA十分简便,执行“python setup.py install”命令即可完成安装。之后运行测试脚本“pythontests/test_flash_mla.py”,就能体验其性能。

该项目开源地址为:https://github.com/deepseek-ai/FlashMLA

© 版权声明
智谱清言 - 国产最强AI模型