KTransformers助力DeepSeek-R1本地运行，开启异构计算新推理路径

DeepSeek-R1在海内外引发热潮，然而其推理服务器问题与高昂成本令中小团队为难。市面上“本地部署”方案多为蒸馏版，因671B参数的MoE架构对显存要求高，在本地小规模硬件运行真正的DeepSeek-R1曾被视为不可能。

近期，清华大学KVCache.AI团队联合趋境科技的KTransformers开源项目有重大更新。它支持24G显存在本地运行DeepSeek-R1、V3的671B满血版，预处理速度最高达286tokens/s，推理生成速度最高能到14 tokens/s。

早在DeepSeek-V2时代，KTransformers就因“专家卸载”技术受关注，它让236B大模型在24GB显存消费级显卡上流畅运行，降低显存需求。随着DeepSeek-R1发布，社区需求激增，版本更新后开发者实测，实现了千亿级模型“家庭化”。

KTransformers团队还公布v0.3预览版性能指标，整合Intel AMX指令集后，CPU预填充速度最高至286tokens/s，比LLaMA.cpp快近28倍，释放了CPU算力潜能。此外，它提供兼容APi与Web界面，降低上手难度，还有灵活的“模板注入框架”。目前在localLLaMa社区热度很高。

在技术方面，KTransformers利用MoE架构稀疏性，采用GPU/CPU异构计算划分策略，将不同部分矩阵分别放在CPU/DRAM和GPU上处理，提升推理性能。在推理框架中，通过调整矩阵计算方式，发挥MLA算子性能，减少KV缓存大小，提高GPU计算利用率。

团队还引入高性能CPU和GPU算子，CPU算子用llamafile等组成框架并优化，GPU算子采用Marlin算子提高计算效率。同时对CUDAGraph改进优化，减少CPU/GPU通讯断点。此外，KTransformers是灵活的推理实验平台，能兼容多种MoE模型和算子，支持多平台。

GitHub 地址：https://github.com/kvcache-ai/ktransformers，具体技术细节指路：https://zhuanlan.zhihu.com/p/714877271

# AI快讯

文章版权归作者所有，未经允许请勿转载。