360智脑团队开源推理模型实现强化学习新高度
360智脑团队达成一项重要成果,成功复现DeepSeek的强化学习效果,并推出开源推理模型Light-R1-14B-DS。此模型在14B参数规模上实现强化学习效果,性能超越DeepSeek-R1-Distill-LLaMA-70B和DeepSeek-R1-Distill-Qwen-32B,显著增强了数学推理能力,在众多32B级别模型中脱颖而出。
Light-R1-14B-DS数学竞赛表现卓越
相较于DeepSeek-R1-14B,Light-R1-14B-DS在数学竞赛任务里成绩斐然。于AIME24测试中提升4.3分,在AIME25测试里更是提高10分。在数学推理任务GPQA上,该模型也取得61.7分的佳绩。
创新训练方法助力模型突破
为实现这一突破,360智脑团队运用两种创新训练方法。CurriculumSFT(渐进式监督微调)通过分阶段训练,让模型从简单数学问题进阶到复杂问题,强化逻辑推理能力。强化学习(RL)首次在14B级别推理模型上成功应用,提升推理准确率的同时保证其他技能基本不受损。
开源资源推动行业发展
此次发布不仅有模型本身,还开源了SFT数据、代码及技术报告,为业界贡献了宝贵资源。这一成果意味着中小规模模型在强化学习领域取得重大进展,有望推动AI推理能力进一步普及。
项目地址:https://github.com/Qihoo360/Light-R1
模型地址:https://HuggingFace.co/qihoo360/Light-R1-14B-DS
数据地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData
© 版权声明
文章版权归作者所有,未经允许请勿转载。