UC伯克利和Together AI联合推出媲美o3-mini的开源代码推理模型DeepCoder-14B-Preview

AI快讯1周前发布 niko
11 0
AiPPT - 一键生成ppt

UC伯克利和Together AI联合发布开源代码推理模型DeepCoder-14B-Preview

UC伯克利和TogetherAI的联合团队推出了完全开源的代码推理模型DeepCoder-14B-Preview,仅14B参数就能媲美o3-mini,且开源代码、数据集等一应俱全,免费使用。

模型微调与基准测试表现

DeepCoder-14B-Preview通过分布式RL从DeepSeek-R1-Distilled-Qwen-14B微调得来。在LiveCodeBench基准测试中,单次通过率达到60.6%,提升幅度高达8%。

数据集构建与过滤流程

团队为解决代码数据集问题,整理出高质量训练集,包括TACO、PrimeIntellect的相关问题及LiveCodeBench问题,并通过程序化验证、测试过滤、去重等严格流程,得到24K个高质量编程问题用于RL训练。

代码沙盒环境与奖励函数

为计算代码RL训练奖励,使用Together代码解释器和本地代码沙盒并行运行测试任务。奖励函数采用稀疏结果奖励模型,明确奖励为「1」和「0」的规则。

训练方法与技术改进

研究者改进GRPO算法为GRPO+,引入迭代式上下文扩展技术,并结合超长过滤技术,提升模型性能。同时,针对训练耗时和采样瓶颈问题,引入并开源verl-Pipeline,实现速度提升,还提出一次性流水线化方案,有效缩短训练时间。

作者介绍

项目作者包括UC伯克利的谭嗣俊、Michael Luo和Roy Huang,他们在机器学习、人工智能等领域有丰富研究和实践经验。

© 版权声明
Trea - 国内首个原生AI IDE