OpenAI推Deep Research,复杂研究与联网搜索新突破

AI快讯5小时前发布 niko
1 0

OpenAI在直播中发布了具备创新性的DeepResearch功能。该功能依托o3的推理能力并结合联网搜索,使ChatGPT能完成以往人类专家需数小时才能完成的复杂研究任务。

在演示环节,OpenAI研究负责人Mark Chen带领团队展示了DeepResearch的强大功能。它最大的亮点在于能在数十分钟内,完成人类专家数小时才能完成的复杂调研任务,Mark Chen将其称为「下一代智能体产品」。

此前,OpenAI推出的o1推理模型存在无法使用工具的限制,因为缺少浏览互联网的核心能力。如今,DeepResearch的引入则解决了这一问题。它基于优化版o3打造,这个o3能够浏览网页和执行python代码,是一个可在互联网上进行多步骤研究的模型,能发现、综合内容并进行推理,还会根据新信息调整计划。

DeepResearch的应用场景十分广泛。在市场调研方面,它能帮助PM完成深度市场调查报告。例如,针对是否开发新语言翻译app的调研需求,它能迅速启动调查,浏览不同网页,提取信息,最终生成包含表格和明确建议的格式化报告。对于不同学术领域的市场研究,如物理学、计算机科学、生物学等,以及财务研究等,它都表现出色。

除了严肃的学术和工作场景,DeepResearch在日常生活中也能发挥作用。比如在购物决策上,当人们考虑购买昂贵物品,如滑雪板时,它能根据用户细化的要求,如高级滑雪者、雪的状况、身高、颜色偏好等,给出长篇报告并详细列出理想产品。甚至帮助人们找出多年前去过的餐厅名字,或是忘记名字但记得部分情节的电视剧等。

技术层面,DeepResearch通过端到端强化学习训练,在多个关注现实世界问题的公开评估中刷新SOTA。它采用与o1相同的强化学习方法并升级,在真实世界任务中训练,整合浏览器操作能力,强化Python工具使用,弥补了o1在处理现实问题时获取大量背景信息的不足。

在各类测试中,DeepResearch表现优异。在全网爆火的「人类最后一次考试」中,取得26.6%准确率破纪录,在GAIA测试中位居外部排行榜榜首,在各领域专家级任务的内部评估中,能自动化完成复杂人工调查工作,节省大量时间。

不过,DeepResearch仍处于早期阶段,存在一些局限性。如有时会在回答中产生虚构事实或错误推断,难以区分权威信息和谣言,置信度校准较弱,报告和引用可能有格式错误,任务开始时间可能较长等。但OpenAI预计这些问题会随使用时间增加而改善。

目前,DeepResearch已在ChatGPT的Pro版本中推出,每月提供100次查询。未来一个月内会向Plus、Team用户推出,随后推广到Enterprise用户。未来所有付费用户将获更高使用配额,且会发布更快、更具成本效益的版本。

展望未来,OpenAI计划将DeepResearch与Operator相结合。届时,ChatGPT将不再局限于信息处理,能够执行更复杂任务,开创全新的AI个人助手时代。

© 版权声明

相关文章

暂无评论

暂无评论...