华为数字化风洞:Sim2Train、Sim2Infer、Sim2Availability助力AI训推提效

AI快讯1天前发布 niko
4 0
AiPPT - 一键生成ppt

华为 新推出的数字化风洞 ,是一个用于复杂AI模型训推前“彩排”的虚拟环境平台。该平台由华为马尔科夫建模仿真团队打造,可实现小时级预演万卡集群方案

华为研究团队发现,超60%的算力浪费源于硬件资源错配与系统耦合。为避免这种情况,就像汽车设计师利用风洞测试新车性能,华为借助数字化风洞在电脑中模拟AI大模型的训练和推理过程,提前发现问题并优化配置,从而避免时间和算力的浪费。

运行大模型存在训练、推理、万卡集群三个阶段的痛点。训练阶段,算力、内存、通信搭配不当会使效率暴跌;推理阶段,硬件难以同时满足不同任务需求;万卡集群则需避免“堵车”“故障”,确保稳定运行。而数字化风洞就像智能调度专家,能逐一解决这些痛点。

华为团队提出的Sim2Train仿真平台,主要从两方面发力。一方面,通过动静态融合的大规模训练集群建模仿真,灵活构建复杂模型,分析资源消耗;另一方面,实现面向昇腾平台的模型结构智能搜索与优化,联合优化全栈架构策略,支撑昇腾集群在多样化负载场景下自动求解高效部署策略。

Sim2Infer 是用于仿真推理过程的多层级系统,能让端到端推理性能提升30%。它可模拟负载特征、分析硬件架构、描述部署策略、驱动仿真运行以及自动搜索优化。此外,还通过软硬协同的建模仿真,实现一系列推理系统的创新优化。

为保障大模型在万卡集群上稳定运行,华为推出了Sim2Availability 。该框架通过建立马尔科夫模型,模拟各种故障的发生、检测、影响和恢复过程。其关键环节包括故障“生成器”“探测器”、故障“影响分析”和恢复“策略库”,可高效精准构建集群系统的“状态监控”,从宏观视角掌控硬件系统状态。

© 版权声明
Trea - 国内首个原生AI IDE