OpenAI推Deep Research，复杂研究与联网搜索新突破

AI快讯1年前 (2025)发布 niko

OpenAI在直播中发布了具备创新性的DeepResearch功能。该功能依托o3的推理能力并结合联网搜索，使ChatGPT能完成以往人类专家需数小时才能完成的复杂研究任务。

在演示环节，OpenAI研究负责人Mark Chen带领团队展示了DeepResearch的强大功能。它最大的亮点在于能在数十分钟内，完成人类专家数小时才能完成的复杂调研任务，Mark Chen将其称为「下一代智能体产品」。

此前，OpenAI推出的o1推理模型存在无法使用工具的限制，因为缺少浏览互联网的核心能力。如今，DeepResearch的引入则解决了这一问题。它基于优化版o3打造，这个o3能够浏览网页和执行python代码，是一个可在互联网上进行多步骤研究的模型，能发现、综合内容并进行推理，还会根据新信息调整计划。

DeepResearch的应用场景十分广泛。在市场调研方面，它能帮助PM完成深度市场调查报告。例如，针对是否开发新语言翻译app的调研需求，它能迅速启动调查，浏览不同网页，提取信息，最终生成包含表格和明确建议的格式化报告。对于不同学术领域的市场研究，如物理学、计算机科学、生物学等，以及财务研究等，它都表现出色。

除了严肃的学术和工作场景，DeepResearch在日常生活中也能发挥作用。比如在购物决策上，当人们考虑购买昂贵物品，如滑雪板时，它能根据用户细化的要求，如高级滑雪者、雪的状况、身高、颜色偏好等，给出长篇报告并详细列出理想产品。甚至帮助人们找出多年前去过的餐厅名字，或是忘记名字但记得部分情节的电视剧等。

技术层面，DeepResearch通过端到端强化学习训练，在多个关注现实世界问题的公开评估中刷新SOTA。它采用与o1相同的强化学习方法并升级，在真实世界任务中训练，整合浏览器操作能力，强化Python工具使用，弥补了o1在处理现实问题时获取大量背景信息的不足。

在各类测试中，DeepResearch表现优异。在全网爆火的「人类最后一次考试」中，取得26.6%准确率破纪录，在GAIA测试中位居外部排行榜榜首，在各领域专家级任务的内部评估中，能自动化完成复杂人工调查工作，节省大量时间。

不过，DeepResearch仍处于早期阶段，存在一些局限性。如有时会在回答中产生虚构事实或错误推断，难以区分权威信息和谣言，置信度校准较弱，报告和引用可能有格式错误，任务开始时间可能较长等。但OpenAI预计这些问题会随使用时间增加而改善。

目前，DeepResearch已在ChatGPT的Pro版本中推出，每月提供100次查询。未来一个月内会向Plus、Team用户推出，随后推广到Enterprise用户。未来所有付费用户将获更高使用配额，且会发布更快、更具成本效益的版本。

展望未来，OpenAI计划将DeepResearch与Operator相结合。届时，ChatGPT将不再局限于信息处理，能够执行更复杂任务，开创全新的AI个人助手时代。

# AI快讯

文章版权归作者所有，未经允许请勿转载。