UC伯克利和Together AI联合发布开源代码推理模型DeepCoder-14B-Preview
UC伯克利和TogetherAI的联合团队推出了完全开源的代码推理模型DeepCoder-14B-Preview,仅14B参数就能媲美o3-mini,且开源代码、数据集等一应俱全,免费使用。
模型微调与基准测试表现
DeepCoder-14B-Preview通过分布式RL从DeepSeek-R1-Distilled-Qwen-14B微调得来。在LiveCodeBench基准测试中,单次通过率达到60.6%,提升幅度高达8%。
数据集构建与过滤流程
团队为解决代码数据集问题,整理出高质量训练集,包括TACO、PrimeIntellect的相关问题及LiveCodeBench问题,并通过程序化验证、测试过滤、去重等严格流程,得到24K个高质量编程问题用于RL训练。
代码沙盒环境与奖励函数
为计算代码RL训练奖励,使用Together代码解释器和本地代码沙盒并行运行测试任务。奖励函数采用稀疏结果奖励模型,明确奖励为「1」和「0」的规则。
训练方法与技术改进
研究者改进GRPO算法为GRPO+,引入迭代式上下文扩展技术,并结合超长过滤技术,提升模型性能。同时,针对训练耗时和采样瓶颈问题,引入并开源verl-Pipeline,实现速度提升,还提出一次性流水线化方案,有效缩短训练时间。
作者介绍
项目作者包括UC伯克利的谭嗣俊、Michael Luo和Roy Huang,他们在机器学习、人工智能等领域有丰富研究和实践经验。
© 版权声明
文章版权归作者所有,未经允许请勿转载。