全新自回归搜索方法打造Satori：提升LLM推理能力的创新方案

在提升大语言模型（LLM）推理能力的探索中，来自MIT、新加坡科技设计大学、哈佛大学等机构的华人研究者开辟新径，提出创新自回归搜索方法，开发出Satori模型。这一模型在数学推理和跨领域任务中表现出色，引发关注。

在OpenAIo1发布后，为提升LLM推理能力，众多研究者尝试多种方法，如知识蒸馏、蒙特卡洛树搜索（MCTS）等。而此次华人研究者让LLM拥有自回归搜索能力，通过自我反思和探索新策略来提升推理能力。

研究者引入行动-思维链（COAT）机制，使LLM在解决问题时能执行多种元动作。同时提出两阶段训练框架。第一阶段小规模格式调优，让LLM熟悉并掌握COAT推理格式。第二阶段大规模自我优化，运用重启与探索（RAE）技术，通过强化学习（RL）进行优化。

Satori模型具有独特优势。它无需外部指导，可自我反思与探索，主要依靠自我改进（RL），实现了先进的推理性能，还展现出强大的迁移能力，可应用于数学以外的多个领域。

在Satori关键设计方面，研究者将LLM的推理过程视为顺序决策问题，用RL训练LLM进行推理。行动-思维链推理（COAT）是重要一环，通过特殊元行动tokens引导推理过程，包括继续推理、反思、探索替代解决方案。但将RL应用于推理面临挑战，为此研究者设置格式调优阶段，并提出重启与探索（RAE）策略。

通过模仿学习进行格式调优阶段，研究者提出多代理数据合成框架，利用生成器、Critic、奖励模型三个LLM构建高质量示范轨迹，让基础LLM学会遵循COAT推理格式。通过RL进行自我提升阶段，以完成格式调优的LLM为基础，用PPO算法优化，引入重启与探索（RAE）和迭代自我提升策略。

评估结果显示，Satori在数学推理基准测试中成绩优异，在不同领域任务上也有很强泛化能力。它不仅掌握数学解题技能，还具备通用推理能力。同时，Satori展现出自我纠错能力，RL训练使其具备测试时扩展能力。此外，通过蒸馏可实现从弱到强的泛化能力提升，为提升较弱基础模型推理能力提供新方法。

# AI快讯

文章版权归作者所有，未经允许请勿转载。