OctoThinker模型：突破Llama系列强化学习瓶颈

在复杂推理任务中，大型语言模型（LLMs）结合任务提示与大规模强化学习（RL）取得显著进展，像DeepSeek – R1 -Zero模型直接将强化学习应用于基础模型，展现出强大推理能力。但不同基础模型系列在强化学习中的表现参差不齐，尤其是LLaMA系列，难以复制成功。

强化学习在Llama模型上的拓展局限：OpenAI的o1、o3及DeepSeek的R1等模型通过大规模强化学习在竞赛级数学问题上取得突破，推动对万亿参数以下小模型强化学习能力的探索。然而，这些进展大多局限于Qwen模型系列，在Llama等模型上难以重现。预训练过程缺乏透明度，使得理解预训练对强化学习可扩展性的影响颇具挑战。一些非传统研究表明，一次性提示能提升Qwen的推理能力，但对Llama效果甚微。尽管OpenWebMath和MathPile等项目致力于编译高质量数学预训练语料，但其规模仍小于一万亿令牌。

探索训练中的稳定衰减策略：上海交通大学的研究人员以Qwen和Llama为研究对象，深入探究训练中期策略对强化学习动态的影响。研究发现，像MegaMath – Web -Pro这样的高质量数学语料能同时提升基础模型和强化学习的性能；使用问答数据，尤其是包含长Chain – of -Thought（CoT）推理的数据，可进一步增强强化学习效果；长CoT在强化学习训练中会带来冗长和不稳定问题；在训练中期进行扩展能提高下游强化学习的性能。基于此，研究人员提出“Stable-Decay”两阶段训练中期策略，先使用2000亿令牌训练基础模型，再用200亿令牌训练三个以CoT为中心的分支，最终成功生成OctoThINKer模型，该模型具有很强的强化学习兼容性。

强化学习配置与基准评估：研究人员使用MATH8K数据集进行强化学习训练提示，配置包括全局训练批量大小为128、每个查询16个滚动响应以及PPO最小批量大小为64。在Llama -3.2 – 3B – Base和Qwen2.5 – 3B -Base模型上进行实验。评估时，基础语言模型使用少样本提示，而强化学习优化的模型在GSM8K、MATH500、OlympiadBench和AMC23等基准任务上使用零样本提示。训练中，Qwen模型的响应长度持续增加并保持在合理范围，Llama模型则出现异常，平均响应长度飙升至4096令牌。评估结果显示，经强化学习优化的Qwen2.5- 3B模型在所有基准测试中均有提升，而Llama – 3.2 – 3B模型的提升极小。

OctoThinker在强化学习兼容性上超越Llama：在13个数学基准测试中，每个OctoThinker分支的表现比原始Llama基础模型高出10% -20%，且在所有稳定阶段模型中都实现了持续改进。OctoThinker -Zero系列在强化学习扩展过程中展现出多样化的思维行为，其中OctoThinker -Long变体表现尤为出色。在比较三个3B规模基础模型的强化学习训练时，OctoThinker – Long – 3B超越了原始Llama – 3.2 -3B模型，性能接近以强大推理能力和广泛预训练著称的Qwen2.5 – 3B模型。混合分支和短分支的表现稍逊，在更具挑战性的基准测试中尤为明显。

结论与未来展望：这项研究深入探讨了Llama和Qwen等基础模型在强化学习推理过程中行为差异的原因，强调了训练中期对强化学习可扩展性的重要性。“Stable -Decay”两阶段训练中期策略成功将Llama转变为更适合强化学习的基础模型，最终产生了OctoThinker模型。

# AI快讯

文章版权归作者所有，未经允许请勿转载。