ai编程能力评估有新进展:OpenAI近期发布的AI编程能力评估报告备受关注,其借助价值达100万美元的实际开发项目,深入探究了AI在软件开发领域的实际状况。名为SWE-Lancer的基准测试,选取了1400个来自Upwork的真实项目,对AI在直接开发和项目管理这两大关键领域的表现展开全面评估。
Claude3.5Sonnet成绩可观:测试结果表明,在众多AI模型中,Claude3.5Sonnet表现出众。在编码任务里,其成功率为26.2%,项目管理决策方面达到44.9%。尽管与人类开发者相比仍存在差距,不过在经济效益方面已显露出不容小觑的潜力。
经济效益潜力初现:数据表明,仅在公开的Diamond数据集中,Claude3.5Sonnet就能完成价值208050美元的项目开发工作。若扩展至完整数据集,AI有能力处理价值超40万美元的任务,经济效益潜力巨大。
复杂开发任务存局限:然而研究也发现,AI在复杂开发任务中存在明显不足。AI虽能处理简单的错误修复工作,像修复冗余APi调用,但面对跨平台视频播放功能开发这类需深入理解和全面解决方案的复杂项目时,表现不尽如人意。AI常能识别问题代码,却难以把握根本原因并给出全面解决方案。
开源推动研究发展 :为促进该领域研究,OpenAI在GitHub上开源了SWE-LancerDiamond数据集及相关工具。这一做法能让研究者依据统一标准评估各类编程模型性能,为提升AI编程能力提供关键参考。
© 版权声明
文章版权归作者所有,未经允许请勿转载。