OpenAI研究人员在新论文中表明,即便当下AI技术先进,可这些模型在编码能力上依旧难以与人类程序员抗衡。OpenAI首席执行官山姆・阿尔特曼曾预计年底AI能战胜“低级” 软件工程师,然而研究结果显示,AI模型面临重大挑战。
OpenAI团队运用名为SWE-Lancer的新基准测试,对从Upwork自由职业网站提取的1400多项软件工程任务表现展开评估。此测试聚焦于三款大型语言模型的编码能力,涵盖OpenAI的o1推理模型、旗舰产品GPT-4o以及AnthroPic的Claude3.5Sonnet。
这些模型需完成两类任务:单个任务,主要针对修复程序错误;管理任务,要求进行高层次决策。测试期间,模型无互联网访问权限,无法直接查找网上答案。
尽管模型承接的任务价值高达数十万美元,但它们仅能修复表面问题,在复杂项目中难以找出深层次错误及根源。这正如使用AI的常见情况,AI虽能快速生成看似正确的信息,可深入检验时往往暴露出不足。
论文指出,这三款LLM处理任务速度远超人类,但常无法全面理解错误的广度和背景,致使给出的解决方案准确性欠佳或不够全面。研究人员称,Claude3.5Sonnet表现优于OpenAI的两款模型,收益更高,但其回答准确率仍未达可信赖水准。
研究显示,先进AI模型在特定任务上能快速运作,但整体软件工程能力仍有欠缺,远未达到取代人类程序员的程度。然而,部分企业已开始用尚不成熟的AI模型替换人类程序员。
© 版权声明
文章版权归作者所有,未经允许请勿转载。