OpenAI推出SWE-Lancer：AI编码测试新基准，Claude 3.5 Sonnet表现亮眼

在AI领域的激烈竞争中，马斯克刚发布Grok 3模型吸引大量关注，OpenAI旋即推出SWE-Lancer——全新的AI编码测试基准。这一基准旨在评估AI模型的编码性能，让AI在现实任务中接受考验。

SWE-Lancer具有创新性，是首个使用专业工程师创建的E2E测试的基准，包含来自Upwork的1400多个自由软件工程任务，总报酬达100万美元，提供更全面、真实的评估。其任务类型分为ICSWE任务和SWE管理任务，对模型提出不同挑战。

Claude 3.5 Sonnet等前沿模型参与了此次评测。结果显示，Claude 3.5Sonnet表现出众，在完整数据集上挣得403,325美元，高于 GPT-4o以及o1等模型。在各类任务表现上，Claude 3.5Sonnet同样展现强大优势。

从基准构建来看，研究团队精心挑选Expensify开源存储库，经100名专业软件工程师审查任务，并开发全面测试，为ICSWE任务配备用户工具，确保数据集高质量和代表性。

实验结果方面，所有模型在完整数据集上的报酬远低于潜在总报酬。在IC SWE任务和SWE管理任务中，各模型表现不同，Claude 3.5Sonnet在两类任务上性能最佳，且在SWE管理任务高质量数据集上得分达45%。

研究团队还进行了多项实验，如提高尝试次数、增加测试计算资源、移除用户工具等。结果表明，模型通过率随尝试次数增加而提升，增加计算资源可提高性能，而移除用户工具对通过率影响较小，但较强模型受影响更大。

此次评测结果表明，真实自由职业工作对前沿大语言模型仍具挑战性。Claude 3.5Sonnet虽表现出色，但解决方案仍需提高可靠性。此外，各模型在不同任务类型上表现有差异，有效使用工具是区分顶级表现的关键。

文章版权归作者所有，未经允许请勿转载。