WeChat-YATT:革新多模态与强化学习大模型训练

AI快讯7秒前发布 niko
1 0
AiPPT - 一键生成ppt

Tencent 推出大模型训练库 WeChat-YATT,基于 Megatron-Core 和 SGLang/vLLM 开发,内部项目代号为gCore。该库专注于强化学习与多模态模型训练,为开发者提供可扩展、简便、高效且可靠的大模型训练方案。

WeChat-YATT 通过定制化并行计算策略,能有效应对大规模模型、长序列输入和大数据集等复杂场景,解决了 WeChat多个实际业务场景的关键痛点,极大提高了大模型训练效率。它为研究人员和开发者提供了灵活且可扩展的技术方案,有望推动多模态和强化学习领域的创新与发展。

此训练库着重解决大模型分布式训练中的两大核心技术瓶颈。一是多模态场景的可扩展性瓶颈,随着图像、视频等多模态数据规模不断扩大,传统单控制器数据管理架构易成通信和内存瓶颈,限制系统吞吐量。WeChat-YATT 引入并行控制器的并行管理机制,有效分散系统压力,增强系统可扩展性与稳定性,更好处理多模态、大数据量的复杂应用场景。

二是动态采样和生成奖励计算下的效率差距问题。在需频繁动态采样或生成奖励计算的训练流程中,频繁模型切换和“长尾”任务产生大量额外开销,影响 GPU计算资源利用率。WeChat-YATT 借助部分共存策略和异步交互机制,降低模型切换成本和“长尾”任务影响,实现训练过程的高吞吐量和高资源利用率,支持大规模RLHF 任务的高效迭代。

依据不同业务场景需求,WeChat-YATT支持全共存和部分共存两种资源放置模式,以实现集群资源的最大化利用。全共存模式采用串行调度机制,各角色依次执行任务,完成后释放计算资源,系统再加载下一任务模型,适用于多数常规训练场景,能减少资源闲置时间,提高训练效率。

部分共存模式下,Actor Rollouts 和 GenRM 独立部署,通过异步方式高效交互。系统动态评估负载进行资源分配与平衡,适用于 Rollouts和 GenRM 需频繁交互和动态采样的复杂任务。

WeChat-YATT 具备多项技术优势。在内存利用方面,采用并行控制器架构,降低单节点内存消耗,适合多模态场景的大模型训练。针对 GenRM支持,实施不同资源放置策略,让用户依具体场景选择最优训练方案。

智能 checkpoint 策略是其亮点之一,支持异步 checkpoint 保存,根据 WeChat业务特性自动保存,保障训练的安全性和高可用性。同时,训练中实现各数据并行组间的负载均衡,减少资源闲置,提高整体训练吞吐量。

WeChat-YATT 的发布是 Tencent 大模型技术基础设施建设的重要进展,也为行业处理复杂多模态训练场景提供了有效方案。

© 版权声明
Trea - 国内首个原生AI IDE