在AI领域的激烈竞争中,马斯克刚发布Grok 3模型吸引大量关注,OpenAI旋即推出SWE-Lancer——全新的AI编码测试基准。这一基准旨在评估AI模型的编码性能,让AI在现实任务中接受考验。
SWE-Lancer具有创新性,是首个使用专业工程师创建的E2E测试的基准,包含来自Upwork的1400多个自由软件工程任务,总报酬达100万美元,提供更全面、真实的评估。其任务类型分为ICSWE任务和SWE管理任务,对模型提出不同挑战。
Claude 3.5 Sonnet等前沿模型参与了此次评测。结果显示,Claude 3.5Sonnet表现出众,在完整数据集上挣得403,325美元,高于GPT-4o以及o1等模型。在各类任务表现上,Claude 3.5Sonnet同样展现强大优势。
从基准构建来看,研究团队精心挑选Expensify开源存储库,经100名专业软件工程师审查任务,并开发全面测试,为ICSWE任务配备用户工具,确保数据集高质量和代表性。
实验结果方面,所有模型在完整数据集上的报酬远低于潜在总报酬。在IC SWE任务和SWE管理任务中,各模型表现不同,Claude 3.5Sonnet在两类任务上性能最佳,且在SWE管理任务高质量数据集上得分达45%。
研究团队还进行了多项实验,如提高尝试次数、增加测试计算资源、移除用户工具等。结果表明,模型通过率随尝试次数增加而提升,增加计算资源可提高性能,而移除用户工具对通过率影响较小,但较强模型受影响更大。
此次评测结果表明,真实自由职业工作对前沿大语言模型仍具挑战性。Claude 3.5Sonnet虽表现出色,但解决方案仍需提高可靠性。此外,各模型在不同任务类型上表现有差异,有效使用工具是区分顶级表现的关键。
© 版权声明
文章版权归作者所有,未经允许请勿转载。