近期,谷歌DeepMind研究团队在强化学习领域取得重大突破,其研究成果在人工智能界引起广泛关注。在探索通往AGI的道路上,强化学习技术发挥着关键作用,而DeepMind团队此次的研究更是为该领域发展注入新动力。
为训练出能力更全面的AI,团队选择了具有独特优势的Craftax-classic环境。此环境中,他们聚焦于改进基于Transformer世界模型(TWM)的强化学习方法,主要从使用TWM、图像转换及训练TWM这三个方面展开研究。
在训练过程中,研究团队首先建立基线模型,之后进行两方面改进:增大模型规模并在策略中加入RNN(GRU)。有趣的是,单纯增大模型规模会降低性能,而与精心设计的RNN结合时性能提升。此外,团队还利用Dyna方法进行预热,将真实环境与虚拟数据混合训练智能体,此方法对提升智能体性能效果显著。
图像转换环节,团队提出新的图像标记化方法,利用图像块分解及最近邻标记器(NNT)代替传统VQ-VAE,这种静态但不断增长的代码本使TWM目标分布更稳定,简化在线学习过程。同时,团队提出块状教师强制(BTF)替代传统教师强制训练TWM,并行预测提高训练速度与模型准确性。
实验结果令人惊喜,智能体按改进措施排序形成「MBRL阶梯」,每一步改进都带来性能提升,最佳的MBRL智能体奖励达到67.42%,超越人类专家平均奖励水平。与现有方法比较,此次性能最优的模型创造新SOTA成绩。消融实验进一步验证各改进措施的重要性。
DeepMind研究团队提出的三项改进措施应用于背景规划,成功提升MBRL智能体在Craftax-classic基准测试中的表现,并推广到更具挑战性的Craftax(full)环境。未来,团队计划将技术推广到其他环境,探索加速TWM训练及结合大型预训练模型能力等方向。