DeepSeek引领大模型训练新方向：算力效能与系统软件的创新突破

2025年初，DeepSeek以2048张H800GPU在两个月内训练出媲美顶尖水平的模型，打破大模型军备竞赛常规，引发行业对算力使用的反思。在AI发展从“更大即更好”转向追求资源高效利用的当下，这一成果意义非凡。

清华大学的翟季冬教授在《智者访谈》中指出，DeepSeek实现高性价比，关键在于系统软件层面的深度创新。在算法上，其采用新的MoE架构，共享专家压缩通用知识，细粒度路由专家提高参数效率，负载均衡算法缓解训练低效问题。系统软件方面，双向流水并行挖掘计算与通信重叠，混合精度计算降低复杂度，低精度通信等策略减少开销。

从算力利用效率评价看，不能仅依赖“GPU利用率”单一指标。训练场景需关注集群整体效率，推理场景终端用户重延迟，算力提供方重吞吐量，成本也是重要考量，降低推理成本对推广AI应用至关重要。

中美硬件差异使中国在系统软件上面临挑战与机遇。NVIDIAGPU凭借成熟生态受欢迎，中国AI芯片起步晚，需补齐短板并挖掘优化空间。应对软件生态壁垒，要学习借鉴并创新，打通应用到自主芯片的路径。