北京时间2月3日上午,OpenAI推出全新Agent——Deepresearch。这一智能体可利用推理合成大量在线信息,为用户完成多步骤研究任务,现已整合至ChatGPT,ChatGPTPro用户已能使用相关功能,后续也将向Plus和Team用户开放。
用户只需告知ChatGPT所需报告要求并勾选Deepresearch,它就能在5到30分钟内查找、分析并综合数百个线上资料,生成相当于分析师水平的综合报告。
这是OpenAI近两周内的第三次发布,此前还发布了首款AIAgent——Operator和最新推理模型o3-mini,且这三次发布均在DeepSeek-R1发布之后。
Deepresearch由OpenAI即将推出的o3模型中的一个版本驱动,该版本针对网络浏览和数据分析进行了优化,能利用推理搜索、解释和分析互联网上的大量文本、图像和PDF文件,并根据搜集信息灵活调整。
OpenAI展示了Deep research在商业、医学研究等多领域的应用案例,称其可提供“全面、精确、可靠的研究”等成果。
此次发布引发关注,尤其是Deep research在“人类的最后考试”中的表现。“人类的最后考试”是由Center for AISafety(CAIS)和Scale AI共同推出的新基准测试,旨在评估大语言模型的深度推理能力。
此前的基准测试如MMLU,因很多大模型取得高准确率,难以有效测量先进大模型能力。“人类的最后考试”共有3000道从70000道题目中筛选出的题目,涉及100多个学科,由近1000名专家、学者设计,包含多项选择题和简答题,有明确标准答案且大模型无法通过简单搜索得出结果。
与以往基准测试相比,“人类的最后考试”更专注于通过原创且高难度题目,尤其是数学和深度推理题,考察模型的极限推理和解决复杂问题能力,还有10%题目考察多模态能力。
众多大模型在“人类的最后考试”中准确率“断崖式下降”,但OpenAI Deep research刷新了最佳成绩,几乎是之前o1准确率的三倍。
根据OpenAI数据,在Deep research加持下,o3模型在“人类的最后考试”中取得26.6%的准确率,在化学、人文和社会科学、数学领域进步明显。
Deepresearch通过端到端强化学习,在复杂浏览和推理任务上进行训练,学会规划和执行多步骤操作流程,还能浏览用户上传文件,使用Python工具绘制和迭代图表等。
不过,OpenAI也指出Deep research仍处于早期阶段,存在一些局限性,如有时会产生幻觉或做出错误推断等,但预计这些问题会随使用和时间改善。
“人类的最后考试”团队认为,该测试可能是最后一次学术考试,但远非针对AI的最后一个基准测试,预计到2025年底,大模型可能在该测试中实现超50%准确率,但这并不意味着AGI到来。而OpenAI首席研究员MarkChen表示,Deep research对AGI路线图很重要。