DeepSWE：基于Qwen3-32B模型的开源AI代理框架，测试表现卓越

今日上午，知名大型模型训练平台Together.ai与Agentica携手，推出了开源AI代理框架DeepSWE。该创新系统依托阿里巴巴最新开源的Qwen3- 32B模型构建，且运用强化学习完成全面训练。

DeepSWE的开源信息可在HuggingFace上获取。除模型权重外，训练方法、日志、数据集等相关内容均公开发布，助力开发者更好地学习和完善这一代理系统。

依据SWE – Bench -Verified测试结果，DeepSWE在最大上下文长度为64k、最多100个环境步骤的条件下进行评估。经过16次运行，Pass@1准确率达到42.2%；混合测试后，其性能提升至59%，在所有开源代理框架中名列前茅。

DeepSWE的训练采用了rLLM框架，这是专门为语言代理后期训练设计的系统。它在64个H100 GPU上进行了六天的训练，使用了R2E -Gym训练环境中的4500个真实软件工程任务，涵盖解决GitHub问题、实现新代码功能、调试等，体现了真实软件工程的多样性。

训练过程中，DeepSWE学会了在庞大代码库中导航、进行有针对性的代码编辑、运行shell命令进行构建和测试，以及在处理实际拉取请求时优化解决方案。在数据集管理方面，采用了R2E- Gym子集中的4500个问题，确保训练数据的纯度和相关性。

训练环境围绕R2E -Gym搭建，支持可扩展、高质量的可执行软件工程环境。奖励机制采用稀疏结果奖励模型，仅当生成的补丁通过所有测试时才给予正奖励，促进更有效的学习。

此外，DeepSWE的训练还采用了改进的GRPO++算法，通过多项创新实现了更稳定、高效的训练过程。研究人员发现，增加输出令牌数量对软件工程任务的影响有限，而扩大滚动数量则显著提升了模型性能。

这一系列举措使DeepSWE成为极具潜力的AI代理系统，推动了强化学习在实际应用中的进展。

开源地址：https://HuggingFace.co/agentica-org/DeepSWE-Preview

文章版权归作者所有，未经允许请勿转载。