OpenAI新Agent Deep research刷新“人类的最后考试”成绩

AI快讯1年前 (2025)发布 niko

北京时间2月3日上午，OpenAI推出全新Agent——Deepresearch。这一智能体可利用推理合成大量在线信息，为用户完成多步骤研究任务，现已整合至ChatGPT，ChatGPTPro用户已能使用相关功能，后续也将向Plus和Team用户开放。

用户只需告知ChatGPT所需报告要求并勾选Deepresearch，它就能在5到30分钟内查找、分析并综合数百个线上资料，生成相当于分析师水平的综合报告。

这是OpenAI近两周内的第三次发布，此前还发布了首款AIAgent——Operator和最新推理模型o3-mini，且这三次发布均在DeepSeek-R1发布之后。

Deepresearch由OpenAI即将推出的o3模型中的一个版本驱动，该版本针对网络浏览和数据分析进行了优化，能利用推理搜索、解释和分析互联网上的大量文本、图像和PDF文件，并根据搜集信息灵活调整。

OpenAI展示了Deep research在商业、医学研究等多领域的应用案例，称其可提供“全面、精确、可靠的研究”等成果。

此次发布引发关注，尤其是Deep research在“人类的最后考试”中的表现。“人类的最后考试”是由Center for AISafety（CAIS）和Scale AI共同推出的新基准测试，旨在评估大语言模型的深度推理能力。

此前的基准测试如MMLU，因很多大模型取得高准确率，难以有效测量先进大模型能力。“人类的最后考试”共有3000道从70000道题目中筛选出的题目，涉及100多个学科，由近1000名专家、学者设计，包含多项选择题和简答题，有明确标准答案且大模型无法通过简单搜索得出结果。

与以往基准测试相比，“人类的最后考试”更专注于通过原创且高难度题目，尤其是数学和深度推理题，考察模型的极限推理和解决复杂问题能力，还有10%题目考察多模态能力。

众多大模型在“人类的最后考试”中准确率“断崖式下降”，但OpenAI Deep research刷新了最佳成绩，几乎是之前o1准确率的三倍。

根据OpenAI数据，在Deep research加持下，o3模型在“人类的最后考试”中取得26.6%的准确率，在化学、人文和社会科学、数学领域进步明显。

Deepresearch通过端到端强化学习，在复杂浏览和推理任务上进行训练，学会规划和执行多步骤操作流程，还能浏览用户上传文件，使用Python工具绘制和迭代图表等。

不过，OpenAI也指出Deep research仍处于早期阶段，存在一些局限性，如有时会产生幻觉或做出错误推断等，但预计这些问题会随使用和时间改善。

“人类的最后考试”团队认为，该测试可能是最后一次学术考试，但远非针对AI的最后一个基准测试，预计到2025年底，大模型可能在该测试中实现超50%准确率，但这并不意味着AGI到来。而OpenAI首席研究员MarkChen表示，Deep research对AGI路线图很重要。

文章版权归作者所有，未经允许请勿转载。