Deep Research产品测评:各维度能力大揭秘

AI快讯4周前发布 niko
10 0
AiPPT - 一键生成ppt

Deep ReseARCh:AI领域新角逐赛道

自2024年末起,Deep Research成为各大厂商Agent产品竞争的热门领域,Google Deep Research、OpenAI DeepResearch等产品相继问世。Deep Research是以大模型为基础,集检索与报告生成于一体的端到端系统,能对信息迭代搜索分析并输出详细报告。

测评对象与任务规划

为评估各产品能力,选取Google、OpenAI、Perplexity、xAI、Manus五款产品。测评围绕“Agent能力+产品核心能力”框架,涵盖ToolUse、Instruction Following、报告输出能力等维度。其中,Memory因自动联网检索机制难以有效评估。

Tool Use能力测评结果

在线检索方面,OpenAI表现突出。在冷门电影和最新书籍检索任务中,OpenAI均能准确定位,展现出强大的小众内容检索能力。而数据分析任务里,五款产品均未成功得出正确结果,各有问题。编程任务中,Manus表现最佳,能提供完整项目文件并运行合格网页;OpenAI次之;Google、xAI、PPLX则无法提供可运行网页。

Instruction Following能力测评结果

文献分析任务中,五款产品均无法完全遵循指令,存在选择性执行或执行偏差问题。路线设计任务,xAI方案因未满足咖啡馆体验需求而掉队,PPLX目的地较同质化,Google、Manus、OpenAI方案接近满分,但均存在交通可行性问题。

报告输出能力测评结果

基于商业研报场景的评估,各产品报告输出能力排序为:OpenAI>Manus>PPLX=xAI>>Google。OpenAI分析专业且兼顾深度广度;Manus分析全面、图表意识强;PPLX和xAI基本达标;Google则存在分析观点不明确、方法论偏差等问题。

总结与展望

相较于前代LLM Search,Deep Research产品在外部工具调度和需求执行上有突破。然而,作为Agent产品的初代形态,DeepResearch在Agent内生能力和长文本报告输出能力上仍有短板,未来发展需要市场的耐心培育。

© 版权声明
Trea - 国内首个原生AI IDE