全新自回归搜索方法打造Satori:提升LLM推理能力的创新方案

AI快讯3个月前发布 niko
14 0
AiPPT - 一键生成ppt

在提升大语言模型(LLM)推理能力的探索中,来自MIT、新加坡科技设计大学、哈佛大学等机构的华人研究者开辟新径,提出创新自回归搜索方法,开发出Satori模型。这一模型在数学推理和跨领域任务中表现出色,引发关注。

在OpenAIo1发布后,为提升LLM推理能力,众多研究者尝试多种方法,如知识蒸馏、蒙特卡洛树搜索(MCTS)等。而此次华人研究者让LLM拥有自回归搜索能力,通过自我反思和探索新策略来提升推理能力。

研究者引入行动-思维链(COAT)机制,使LLM在解决问题时能执行多种元动作。同时提出两阶段训练框架。第一阶段小规模格式调优,让LLM熟悉并掌握COAT推理格式。第二阶段大规模自我优化,运用重启与探索(RAE)技术,通过强化学习(RL)进行优化。

Satori模型具有独特优势。它无需外部指导,可自我反思与探索,主要依靠自我改进(RL),实现了先进的推理性能,还展现出强大的迁移能力,可应用于数学以外的多个领域。

在Satori关键设计方面,研究者将LLM的推理过程视为顺序决策问题,用RL训练LLM进行推理。行动-思维链推理(COAT)是重要一环,通过特殊元行动tokens引导推理过程,包括继续推理、反思、探索替代解决方案。但将RL应用于推理面临挑战,为此研究者设置格式调优阶段,并提出重启与探索(RAE)策略。

通过模仿学习进行格式调优阶段,研究者提出多代理数据合成框架,利用生成器、Critic、奖励模型三个LLM构建高质量示范轨迹,让基础LLM学会遵循COAT推理格式。通过RL进行自我提升阶段,以完成格式调优的LLM为基础,用PPO算法优化,引入重启与探索(RAE)和迭代自我提升策略。

评估结果显示,Satori在数学推理基准测试中成绩优异,在不同领域任务上也有很强泛化能力。它不仅掌握数学解题技能,还具备通用推理能力。同时,Satori展现出自我纠错能力,RL训练使其具备测试时扩展能力。此外,通过蒸馏可实现从弱到强的泛化能力提升,为提升较弱基础模型推理能力提供新方法。

© 版权声明
Trea - 国内首个原生AI IDE