Deep Research产品测评：各维度能力大揭秘

Deep ReseARCh：AI领域新角逐赛道

自2024年末起，Deep Research成为各大厂商Agent产品竞争的热门领域，Google Deep Research、OpenAI DeepResearch等产品相继问世。Deep Research是以大模型为基础，集检索与报告生成于一体的端到端系统，能对信息迭代搜索分析并输出详细报告。

测评对象与任务规划

为评估各产品能力，选取Google、OpenAI、Perplexity、xAI、Manus五款产品。测评围绕“Agent能力+产品核心能力”框架，涵盖ToolUse、Instruction Following、报告输出能力等维度。其中，Memory因自动联网检索机制难以有效评估。

Tool Use能力测评结果

在线检索方面，OpenAI表现突出。在冷门电影和最新书籍检索任务中，OpenAI均能准确定位，展现出强大的小众内容检索能力。而数据分析任务里，五款产品均未成功得出正确结果，各有问题。编程任务中，Manus表现最佳，能提供完整项目文件并运行合格网页；OpenAI次之；Google、xAI、PPLX则无法提供可运行网页。

Instruction Following能力测评结果

文献分析任务中，五款产品均无法完全遵循指令，存在选择性执行或执行偏差问题。路线设计任务，xAI方案因未满足咖啡馆体验需求而掉队，PPLX目的地较同质化，Google、Manus、OpenAI方案接近满分，但均存在交通可行性问题。

报告输出能力测评结果

基于商业研报场景的评估，各产品报告输出能力排序为：OpenAI＞Manus＞PPLX=xAI＞＞Google。OpenAI分析专业且兼顾深度广度；Manus分析全面、图表意识强；PPLX和xAI基本达标；Google则存在分析观点不明确、方法论偏差等问题。

总结与展望

相较于前代LLM Search，Deep Research产品在外部工具调度和需求执行上有突破。然而，作为Agent产品的初代形态，DeepResearch在Agent内生能力和长文本报告输出能力上仍有短板，未来发展需要市场的耐心培育。

# AI快讯

文章版权归作者所有，未经允许请勿转载。