WeChat-YATT：革新多模态与强化学习大模型训练

Tencent 推出大模型训练库 WeChat-YATT，基于 Megatron-Core 和 SGLang/vLLM 开发，内部项目代号为gCore。该库专注于强化学习与多模态模型训练，为开发者提供可扩展、简便、高效且可靠的大模型训练方案。

WeChat-YATT 通过定制化并行计算策略，能有效应对大规模模型、长序列输入和大数据集等复杂场景，解决了 WeChat多个实际业务场景的关键痛点，极大提高了大模型训练效率。它为研究人员和开发者提供了灵活且可扩展的技术方案，有望推动多模态和强化学习领域的创新与发展。

此训练库着重解决大模型分布式训练中的两大核心技术瓶颈。一是多模态场景的可扩展性瓶颈，随着图像、视频等多模态数据规模不断扩大，传统单控制器数据管理架构易成通信和内存瓶颈，限制系统吞吐量。WeChat-YATT 引入并行控制器的并行管理机制，有效分散系统压力，增强系统可扩展性与稳定性，更好处理多模态、大数据量的复杂应用场景。

二是动态采样和生成奖励计算下的效率差距问题。在需频繁动态采样或生成奖励计算的训练流程中，频繁模型切换和“长尾”任务产生大量额外开销，影响 GPU计算资源利用率。WeChat-YATT 借助部分共存策略和异步交互机制，降低模型切换成本和“长尾”任务影响，实现训练过程的高吞吐量和高资源利用率，支持大规模RLHF 任务的高效迭代。

依据不同业务场景需求，WeChat-YATT支持全共存和部分共存两种资源放置模式，以实现集群资源的最大化利用。全共存模式采用串行调度机制，各角色依次执行任务，完成后释放计算资源，系统再加载下一任务模型，适用于多数常规训练场景，能减少资源闲置时间，提高训练效率。

部分共存模式下，Actor Rollouts 和 GenRM 独立部署，通过异步方式高效交互。系统动态评估负载进行资源分配与平衡，适用于 Rollouts和 GenRM 需频繁交互和动态采样的复杂任务。

WeChat-YATT 具备多项技术优势。在内存利用方面，采用并行控制器架构，降低单节点内存消耗，适合多模态场景的大模型训练。针对 GenRM支持，实施不同资源放置策略，让用户依具体场景选择最优训练方案。

智能 checkpoint 策略是其亮点之一，支持异步 checkpoint 保存，根据 WeChat业务特性自动保存，保障训练的安全性和高可用性。同时，训练中实现各数据并行组间的负载均衡，减少资源闲置，提高整体训练吞吐量。

WeChat-YATT 的发布是 Tencent 大模型技术基础设施建设的重要进展，也为行业处理复杂多模态训练场景提供了有效方案。

# AI快讯

文章版权归作者所有，未经允许请勿转载。