语言模型强化学习:奖励噪音鲁棒性与思考模式的关键作用

AI快讯2小时前发布 niko
0 0
AiPPT - 一键生成ppt

奖励噪音鲁棒性研究 :人大和腾讯研究者在论文中揭示,语言模型在强化学习中对奖励噪音有较强鲁棒性。以数学任务为例,训练Qwen – 2.5 -7B模型时,即便大幅翻转奖励(如正确答案得0分,错误答案得1分),下游任务表现也未显著下降,直至奖励完全随机(p值达50%),训练效果才变差。

Reasoning Pattern Reward机制 :为验证思考模式的重要性,研究者设计了Reasoning PatternReward(RPR)机制。仅依据模型输出中高频思考关键词的出现频次给予奖励,不考虑答案正确性。Qwen – 2.5 – 7B在MATH -500数据集上,准确率从5%提升至70%以上,虽存在“过度思考”问题,但证明了思考模式对能力提升的重要性。

奖励模型校准启示 :基于奖励函数实验,研究者意识到语言模型若能对奖励模型输出噪声保持鲁棒性,不必追求极度精准的奖励模型。在Nvidia -HelpSteer3数据集实验中,当奖励模型准确率超75%,对下游任务性能提升有限。通过RPR校准奖励模型,即便准确率为65%,也能使模型表现接近85%准确率的奖励模型训练效果。

强化学习影响与预训练重要性:强化学习对语言模型的影响主要是改变输出风格,形成良好思考模式,而非获取新知识。但模型预训练技术的增强仍需持续投入,因为预训练阶段的能力会影响下游任务表现,如LLaMA3预训练模型因难以生成高质量思考路径,表现逊于Qwen模型。

© 版权声明
Trea - 国内首个原生AI IDE