2025年初,DeepSeek以2048张H800GPU在两个月内训练出媲美顶尖水平的模型,打破大模型军备竞赛常规,引发行业对算力使用的反思。在AI发展从“更大即更好”转向追求资源高效利用的当下,这一成果意义非凡。
清华大学的翟季冬教授在《智者访谈》中指出,DeepSeek实现高性价比,关键在于系统软件层面的深度创新。在算法上,其采用新的MoE架构,共享专家压缩通用知识,细粒度路由专家提高参数效率,负载均衡算法缓解训练低效问题。系统软件方面,双向流水并行挖掘计算与通信重叠,混合精度计算降低复杂度,低精度通信等策略减少开销。
从算力利用效率评价看,不能仅依赖“GPU利用率”单一指标。训练场景需关注集群整体效率,推理场景终端用户重延迟,算力提供方重吞吐量,成本也是重要考量,降低推理成本对推广AI应用至关重要。
中美硬件差异使中国在系统软件上面临挑战与机遇。NVIDIAGPU凭借成熟生态受欢迎,中国AI芯片起步晚,需补齐短板并挖掘优化空间。应对软件生态壁垒,要学习借鉴并创新,打通应用到自主芯片的路径。
万卡集群训练面临诸多挑战,并行策略选择要权衡多种方式,通信函数与网络拓扑的高效映射困难,需设计轻量级容错机制,单卡性能也不容忽视。大模型各阶段对算力需求不同,后训练、微调、推理阶段都需针对性优化。
现阶段国产算力中心存在闲置,通过完善系统软件,如优化编程语言、编译器等,提高国产算力易用性,是实现算力高效利用的关键。翟季冬教授团队孵化的公司正致力于此,推动AI产业整体发展。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...