UC伯克利和Together AI联合推出媲美o3-mini的开源代码推理模型DeepCoder-14B-Preview

AI快讯4个月前发布 niko

UC伯克利和Together AI联合发布开源代码推理模型DeepCoder-14B-Preview

UC伯克利和TogetherAI的联合团队推出了完全开源的代码推理模型DeepCoder-14B-Preview，仅14B参数就能媲美o3-mini，且开源代码、数据集等一应俱全，免费使用。

模型微调与基准测试表现

DeepCoder-14B-Preview通过分布式RL从DeepSeek-R1-Distilled-Qwen-14B微调得来。在LiveCodeBench基准测试中，单次通过率达到60.6%，提升幅度高达8%。

数据集构建与过滤流程

团队为解决代码数据集问题，整理出高质量训练集，包括TACO、PrimeIntellect的相关问题及LiveCodeBench问题，并通过程序化验证、测试过滤、去重等严格流程，得到24K个高质量编程问题用于RL训练。

代码沙盒环境与奖励函数

为计算代码RL训练奖励，使用Together代码解释器和本地代码沙盒并行运行测试任务。奖励函数采用稀疏结果奖励模型，明确奖励为「1」和「0」的规则。

训练方法与技术改进

研究者改进GRPO算法为GRPO+，引入迭代式上下文扩展技术，并结合超长过滤技术，提升模型性能。同时，针对训练耗时和采样瓶颈问题，引入并开源verl-Pipeline，实现速度提升，还提出一次性流水线化方案，有效缩短训练时间。

作者介绍

项目作者包括UC伯克利的谭嗣俊、Michael Luo和Roy Huang，他们在机器学习、人工智能等领域有丰富研究和实践经验。

文章版权归作者所有，未经允许请勿转载。