OpenAI新框架PaperBench：AI智能体复现ICML 2024论文的挑战与潜力

AI快讯4个月前发布 niko

AI科研潜力评估新突破：PaperBench框架登场

在AI技术不断发展的当下，其在科研领域的潜力备受关注。OpenAI团队适时发布了全新的PaperBench框架，旨在评估AI智能体复现顶尖研究的基础能力。

复现任务艰巨：20篇ICML 2024论文的挑战

PaperBench框架要求AI智能体从0开始复现20篇ICML 2024Spotlight和Oral论文。这一过程不仅需要理解论文核心思想，还得自主开发代码库、运行实验并验证结果，对AI智能体而言是一项极具挑战性的任务。

严格评估标准：8316个可单独评分任务

为确保评估的准确性和权威性，OpenAI联手每篇ICML论文作者制定了详细的评分标准。PaperBench总共包含8,316个可单独评分的任务，将复现目标分解为细粒度子任务，采用层次结构进行评分。

自动评判系统：降低成本与提升效率

面对复杂的任务，人工评分效率低下且成本高昂。为此，Openai开发了基于大模型的自动评判系统，并推出辅助工具JudgeEval。评判系统SimpleJudge能独立对评分标准中的每个叶节点进行评分，大幅降低了评判成本，证明比人工评分更经济高效。

实验结果揭晓：Claude 3.5 Sonnet领先但仍有差距

研究人员对多个AI智能体进行了评估，结果显示Claude 3.5Sonnet（New）得分最高，为21.0%，但即便如此，仍无法超越机器学习博士。人类参与者在相同任务中取得了41.4%的高分，凸显了AI与人类专家之间的差距。

变体测试：IterativeAgent带来新发现

研究人员还测试了BasicAgent的变体IterativeAgent，发现其对o1和o3-mini的得分有显著提升。不同智能体在使用IterativeAgent时表现各异，这为进一步优化AI智能体性能提供了方向。

未来展望：AI智能体科研潜力待挖掘

PaperBench框架不仅揭示了AI智能体在科研中的潜力，也暴露了它们在长期规划任务中的局限性。随着模型能力的不断提升，AI能否接近甚至超越人类基准，值得期待。

文章版权归作者所有，未经允许请勿转载。