DeepSeek-V3 绕过CUDA引发行业震动,AI 编写底层代码成新方向

AI快讯3个月前更新 niko
8 0
AiPPT - 一键生成ppt

硬件媒体Tom‘sHardware带来开年消息,英伟达在经历DeepSeek-R1引发的4万亿元暴跌冲击后,又面临新挑战。此次是DeepSeek-V3论文更多细节被挖出,引发行业热议。

来自Mirae Asset SecuritiesResearch的分析指出,DeepSeek-V3的硬件效率比Meta等高出10倍,原因在于其“从头开始重建了一切”。在使用英伟达的H800GPU训练DeepSeek-V3时,团队针对自身需求,将132个流式多处理器(SMs)中的20个改为负责服务器间通信,而非计算任务,巧妙绕过硬件对通信速度的限制。

值得注意的是,这一操作是通过英伟达的PTX语言实现,而非行业通用的CUDA。PTX在接近汇编语言的层级运行,可进行细粒度优化,如寄存器分配和Thread/Warp级别的调整,但编程复杂且维护难度大。

那么,DeepSeek真的绕过了CUDA吗?实际上,PTX仍是英伟达GPU架构中的技术,是CUDA编程模型的中间表示,在编译流程中,CUDA代码先编译为PTX代码,再编译为目标GPU架构的机器码。CUDA提供高级编程接口和工具链,简化开发工作,PTX则充当高级语言和底层硬件的桥梁,两步编译使CUDA程序具备跨架构兼容性和可移植性。所以,DeepSeek做PTX级优化不意味着脱离CUDA生态,但显示其有优化其他GPU的能力。

事实上,DeepSeek已与AMD、华为等团队紧密合作,展现其在不同硬件生态的支持能力。此外,还有观点认为让AI擅长编写汇编语言是AI自我改进的方向。此前,DeepSeek-R1编写的代码就显著提升了大模型推理框架的运行速度,如Llama.cpp项目中的新PR请求,其中99%的代码由DeekSeek-R1编写,提升了WebAssembly在特定点积函数上的运行速度。

© 版权声明
Trea - 国内首个原生AI IDE
AiPPT - 一键生成ppt