360智脑发布开源推理模型Light-R1-14B-DS，实现强化学习新突破

AI快讯1年前 (2025)发布 niko

360智脑团队开源推理模型实现强化学习新高度

360智脑团队达成一项重要成果，成功复现DeepSeek的强化学习效果，并推出开源推理模型Light-R1-14B-DS。此模型在14B参数规模上实现强化学习效果，性能超越DeepSeek-R1-Distill-LLaMA-70B和DeepSeek-R1-Distill-Qwen-32B，显著增强了数学推理能力，在众多32B级别模型中脱颖而出。

Light-R1-14B-DS数学竞赛表现卓越

相较于DeepSeek-R1-14B，Light-R1-14B-DS在数学竞赛任务里成绩斐然。于AIME24测试中提升4.3分，在AIME25测试里更是提高10分。在数学推理任务GPQA上，该模型也取得61.7分的佳绩。

创新训练方法助力模型突破

为实现这一突破，360智脑团队运用两种创新训练方法。CurriculumSFT（渐进式监督微调）通过分阶段训练，让模型从简单数学问题进阶到复杂问题，强化逻辑推理能力。强化学习(RL)首次在14B级别推理模型上成功应用，提升推理准确率的同时保证其他技能基本不受损。

开源资源推动行业发展

此次发布不仅有模型本身，还开源了SFT数据、代码及技术报告，为业界贡献了宝贵资源。这一成果意味着中小规模模型在强化学习领域取得重大进展，有望推动AI推理能力进一步普及。

项目地址：https://github.com/Qihoo360/Light-R1

模型地址：https://HuggingFace.co/qihoo360/Light-R1-14B-DS

数据地址：https://huggingface.co/datasets/qihoo360/Light-R1-SFTData

# AI快讯

文章版权归作者所有，未经允许请勿转载。