DeepSWE:基于Qwen3-32B模型的开源AI代理框架,测试表现卓越

AI快讯11小时前发布 niko
5 0
AiPPT - 一键生成ppt

今日上午,知名大型模型训练平台Together.ai与Agentica携手,推出了开源AI代理框架DeepSWE。该创新系统依托阿里巴巴最新开源的Qwen3- 32B模型构建,且运用强化学习完成全面训练。

DeepSWE的开源信息可在HuggingFace上获取。除模型权重外,训练方法、日志、数据集等相关内容均公开发布,助力开发者更好地学习和完善这一代理系统。

依据SWE – Bench -Verified测试结果,DeepSWE在最大上下文长度为64k、最多100个环境步骤的条件下进行评估。经过16次运行,Pass@1准确率达到42.2%;混合测试后,其性能提升至59%,在所有开源代理框架中名列前茅。

DeepSWE的训练采用了rLLM框架,这是专门为语言代理后期训练设计的系统。它在64个H100 GPU上进行了六天的训练,使用了R2E -Gym训练环境中的4500个真实软件工程任务,涵盖解决GitHub问题、实现新代码功能、调试等,体现了真实软件工程的多样性。

训练过程中,DeepSWE学会了在庞大代码库中导航、进行有针对性的代码编辑、运行shell命令进行构建和测试,以及在处理实际拉取请求时优化解决方案。在数据集管理方面,采用了R2E- Gym子集中的4500个问题,确保训练数据的纯度和相关性。

训练环境围绕R2E -Gym搭建,支持可扩展、高质量的可执行软件工程环境。奖励机制采用稀疏结果奖励模型,仅当生成的补丁通过所有测试时才给予正奖励,促进更有效的学习。

此外,DeepSWE的训练还采用了改进的GRPO++算法,通过多项创新实现了更稳定、高效的训练过程。研究人员发现,增加输出令牌数量对软件工程任务的影响有限,而扩大滚动数量则显著提升了模型性能。

这一系列举措使DeepSWE成为极具潜力的AI代理系统,推动了强化学习在实际应用中的进展。

开源地址:https://HuggingFace.co/agentica-org/DeepSWE-Preview

© 版权声明
Trea - 国内首个原生AI IDE