OpenAI研究：大型语言模型编码能力难敌人类程序员

OpenAI研究人员在新论文中表明，即便当下AI技术先进，可这些模型在编码能力上依旧难以与人类程序员抗衡。OpenAI首席执行官山姆・阿尔特曼曾预计年底AI能战胜“低级” 软件工程师，然而研究结果显示，AI模型面临重大挑战。

OpenAI团队运用名为SWE-Lancer的新基准测试，对从Upwork自由职业网站提取的1400多项软件工程任务表现展开评估。此测试聚焦于三款大型语言模型的编码能力，涵盖OpenAI的o1推理模型、旗舰产品 GPT-4o以及AnthroPic的 Claude3.5Sonnet。

这些模型需完成两类任务：单个任务，主要针对修复程序错误；管理任务，要求进行高层次决策。测试期间，模型无互联网访问权限，无法直接查找网上答案。

尽管模型承接的任务价值高达数十万美元，但它们仅能修复表面问题，在复杂项目中难以找出深层次错误及根源。这正如使用AI的常见情况，AI虽能快速生成看似正确的信息，可深入检验时往往暴露出不足。

论文指出，这三款LLM处理任务速度远超人类，但常无法全面理解错误的广度和背景，致使给出的解决方案准确性欠佳或不够全面。研究人员称，Claude3.5Sonnet表现优于OpenAI的两款模型，收益更高，但其回答准确率仍未达可信赖水准。

研究显示，先进AI模型在特定任务上能快速运作，但整体软件工程能力仍有欠缺，远未达到取代人类程序员的程度。然而，部分企业已开始用尚不成熟的AI模型替换人类程序员。

文章版权归作者所有，未经允许请勿转载。