在复杂推理任务中,大型语言模型(LLMs)结合任务提示与大规模强化学习(RL)取得显著进展,像DeepSeek – R1 -Zero模型直接将强化学习应用于基础模型,展现出强大推理能力。但不同基础模型系列在强化学习中的表现参差不齐,尤其是LLaMA系列,难以复制成功。
强化学习在Llama模型上的拓展局限:OpenAI的o1、o3及DeepSeek的R1等模型通过大规模强化学习在竞赛级数学问题上取得突破,推动对万亿参数以下小模型强化学习能力的探索。然而,这些进展大多局限于Qwen模型系列,在Llama等模型上难以重现。预训练过程缺乏透明度,使得理解预训练对强化学习可扩展性的影响颇具挑战。一些非传统研究表明,一次性提示能提升Qwen的推理能力,但对Llama效果甚微。尽管OpenWebMath和MathPile等项目致力于编译高质量数学预训练语料,但其规模仍小于一万亿令牌。
探索训练中的稳定衰减策略:上海交通大学的研究人员以Qwen和Llama为研究对象,深入探究训练中期策略对强化学习动态的影响。研究发现,像MegaMath – Web -Pro这样的高质量数学语料能同时提升基础模型和强化学习的性能;使用问答数据,尤其是包含长Chain – of -Thought(CoT)推理的数据,可进一步增强强化学习效果;长CoT在强化学习训练中会带来冗长和不稳定问题;在训练中期进行扩展能提高下游强化学习的性能。基于此,研究人员提出“Stable-Decay”两阶段训练中期策略,先使用2000亿令牌训练基础模型,再用200亿令牌训练三个以CoT为中心的分支,最终成功生成OctoThINKer模型,该模型具有很强的强化学习兼容性。
强化学习配置与基准评估:研究人员使用MATH8K数据集进行强化学习训练提示,配置包括全局训练批量大小为128、每个查询16个滚动响应以及PPO最小批量大小为64。在Llama -3.2 – 3B – Base和Qwen2.5 – 3B -Base模型上进行实验。评估时,基础语言模型使用少样本提示,而强化学习优化的模型在GSM8K、MATH500、OlympiadBench和AMC23等基准任务上使用零样本提示。训练中,Qwen模型的响应长度持续增加并保持在合理范围,Llama模型则出现异常,平均响应长度飙升至4096令牌。评估结果显示,经强化学习优化的Qwen2.5- 3B模型在所有基准测试中均有提升,而Llama – 3.2 – 3B模型的提升极小。
OctoThinker在强化学习兼容性上超越Llama:在13个数学基准测试中,每个OctoThinker分支的表现比原始Llama基础模型高出10% -20%,且在所有稳定阶段模型中都实现了持续改进。OctoThinker -Zero系列在强化学习扩展过程中展现出多样化的思维行为,其中OctoThinker -Long变体表现尤为出色。在比较三个3B规模基础模型的强化学习训练时,OctoThinker – Long – 3B超越了原始Llama – 3.2 -3B模型,性能接近以强大推理能力和广泛预训练著称的Qwen2.5 – 3B模型。混合分支和短分支的表现稍逊,在更具挑战性的基准测试中尤为明显。
结论与未来展望:这项研究深入探讨了Llama和Qwen等基础模型在强化学习推理过程中行为差异的原因,强调了训练中期对强化学习可扩展性的重要性。“Stable -Decay”两阶段训练中期策略成功将Llama转变为更适合强化学习的基础模型,最终产生了OctoThinker模型。