语言模型强化学习：奖励噪音鲁棒性与思考模式的关键作用

奖励噪音鲁棒性研究 ：人大和腾讯研究者在论文中揭示，语言模型在强化学习中对奖励噪音有较强鲁棒性。以数学任务为例，训练Qwen – 2.5 -7B模型时，即便大幅翻转奖励（如正确答案得0分，错误答案得1分），下游任务表现也未显著下降，直至奖励完全随机（p值达50%），训练效果才变差。

Reasoning Pattern Reward机制 ：为验证思考模式的重要性，研究者设计了Reasoning PatternReward（RPR）机制。仅依据模型输出中高频思考关键词的出现频次给予奖励，不考虑答案正确性。Qwen – 2.5 – 7B在MATH -500数据集上，准确率从5%提升至70%以上，虽存在“过度思考”问题，但证明了思考模式对能力提升的重要性。

奖励模型校准启示 ：基于奖励函数实验，研究者意识到语言模型若能对奖励模型输出噪声保持鲁棒性，不必追求极度精准的奖励模型。在Nvidia -HelpSteer3数据集实验中，当奖励模型准确率超75%，对下游任务性能提升有限。通过RPR校准奖励模型，即便准确率为65%，也能使模型表现接近85%准确率的奖励模型训练效果。

强化学习影响与预训练重要性：强化学习对语言模型的影响主要是改变输出风格，形成良好思考模式，而非获取新知识。但模型预训练技术的增强仍需持续投入，因为预训练阶段的能力会影响下游任务表现，如LLaMA3预训练模型因难以生成高质量思考路径，表现逊于Qwen模型。

# AI快讯

文章版权归作者所有，未经允许请勿转载。