DeepSeek-V3 绕过CUDA引发行业震动，AI 编写底层代码成新方向

硬件媒体Tom‘sHardware带来开年消息，英伟达在经历DeepSeek-R1引发的4万亿元暴跌冲击后，又面临新挑战。此次是DeepSeek-V3论文更多细节被挖出，引发行业热议。

来自Mirae Asset SecuritiesResearch的分析指出，DeepSeek-V3的硬件效率比Meta等高出10倍，原因在于其“从头开始重建了一切”。在使用英伟达的H800GPU训练DeepSeek-V3时，团队针对自身需求，将132个流式多处理器（SMs）中的20个改为负责服务器间通信，而非计算任务，巧妙绕过硬件对通信速度的限制。

值得注意的是，这一操作是通过英伟达的PTX语言实现，而非行业通用的CUDA。PTX在接近汇编语言的层级运行，可进行细粒度优化，如寄存器分配和Thread/Warp级别的调整，但编程复杂且维护难度大。

那么，DeepSeek真的绕过了CUDA吗？实际上，PTX仍是英伟达GPU架构中的技术，是CUDA编程模型的中间表示，在编译流程中，CUDA代码先编译为PTX代码，再编译为目标GPU架构的机器码。CUDA提供高级编程接口和工具链，简化开发工作，PTX则充当高级语言和底层硬件的桥梁，两步编译使CUDA程序具备跨架构兼容性和可移植性。所以，DeepSeek做PTX级优化不意味着脱离CUDA生态，但显示其有优化其他GPU的能力。

事实上，DeepSeek已与AMD、华为等团队紧密合作，展现其在不同硬件生态的支持能力。此外，还有观点认为让AI擅长编写汇编语言是AI自我改进的方向。此前，DeepSeek-R1编写的代码就显著提升了大模型推理框架的运行速度，如Llama.cpp项目中的新PR请求，其中99%的代码由DeekSeek-R1编写，提升了WebAssembly在特定点积函数上的运行速度。

# AI快讯

文章版权归作者所有，未经允许请勿转载。