DeepMind团队利用多种创新方法提升MBRL智能体在Craftax-classic环境中的表现

近期，谷歌DeepMind研究团队在强化学习领域取得重大突破，其研究成果在人工智能界引起广泛关注。在探索通往AGI的道路上，强化学习技术发挥着关键作用，而DeepMind团队此次的研究更是为该领域发展注入新动力。

为训练出能力更全面的AI，团队选择了具有独特优势的Craftax-classic环境。此环境中，他们聚焦于改进基于Transformer世界模型（TWM）的强化学习方法，主要从使用TWM、图像转换及训练TWM这三个方面展开研究。

在训练过程中，研究团队首先建立基线模型，之后进行两方面改进：增大模型规模并在策略中加入RNN（GRU）。有趣的是，单纯增大模型规模会降低性能，而与精心设计的RNN结合时性能提升。此外，团队还利用Dyna方法进行预热，将真实环境与虚拟数据混合训练智能体，此方法对提升智能体性能效果显著。

图像转换环节，团队提出新的图像标记化方法，利用图像块分解及最近邻标记器（NNT）代替传统VQ-VAE，这种静态但不断增长的代码本使TWM目标分布更稳定，简化在线学习过程。同时，团队提出块状教师强制（BTF）替代传统教师强制训练TWM，并行预测提高训练速度与模型准确性。

实验结果令人惊喜，智能体按改进措施排序形成「MBRL阶梯」，每一步改进都带来性能提升，最佳的MBRL智能体奖励达到67.42%，超越人类专家平均奖励水平。与现有方法比较，此次性能最优的模型创造新SOTA成绩。消融实验进一步验证各改进措施的重要性。

DeepMind研究团队提出的三项改进措施应用于背景规划，成功提升MBRL智能体在Craftax-classic基准测试中的表现，并推广到更具挑战性的Craftax(full)环境。未来，团队计划将技术推广到其他环境，探索加速TWM训练及结合大型预训练模型能力等方向。

文章版权归作者所有，未经允许请勿转载。