360智脑发布开源推理模型Light-R1-14B-DS,实现强化学习新突破

AI快讯10小时前发布 niko
2 0
AiPPT - 一键生成ppt

360智脑团队开源推理模型实现强化学习新高度

360智脑团队达成一项重要成果,成功复现DeepSeek的强化学习效果,并推出开源推理模型Light-R1-14B-DS。此模型在14B参数规模上实现强化学习效果,性能超越DeepSeek-R1-Distill-LLaMA-70B和DeepSeek-R1-Distill-Qwen-32B,显著增强了数学推理能力,在众多32B级别模型中脱颖而出。

Light-R1-14B-DS数学竞赛表现卓越

相较于DeepSeek-R1-14B,Light-R1-14B-DS在数学竞赛任务里成绩斐然。于AIME24测试中提升4.3分,在AIME25测试里更是提高10分。在数学推理任务GPQA上,该模型也取得61.7分的佳绩。

创新训练方法助力模型突破

为实现这一突破,360智脑团队运用两种创新训练方法。CurriculumSFT(渐进式监督微调)通过分阶段训练,让模型从简单数学问题进阶到复杂问题,强化逻辑推理能力。强化学习(RL)首次在14B级别推理模型上成功应用,提升推理准确率的同时保证其他技能基本不受损。

开源资源推动行业发展

此次发布不仅有模型本身,还开源了SFT数据、代码及技术报告,为业界贡献了宝贵资源。这一成果意味着中小规模模型在强化学习领域取得重大进展,有望推动AI推理能力进一步普及。

项目地址:https://github.com/Qihoo360/Light-R1

模型地址:https://HuggingFace.co/qihoo360/Light-R1-14B-DS

数据地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData

© 版权声明
智谱清言 - 国产最强AI模型