BrowseComp-ZH测试大模型，OpenAI DeepResearch仅四成准确率

新基准测试集暴露大模型短板

由港科大（广州）、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集BRowseComp-ZH，让20多个中外主流大模型在测试中表现不佳。GPT- 4o准确率仅6.2%，多数国产/国际模型准确率跌破10%，即使表现最好的OpenAIDeepReseARCh也仅达到42.9%。目前，BrowseComp-ZH的全部数据已开源发布。

中文网页能力测试的必要性

当下大模型虽擅长使用工具，但众多评估工具多基于英文语境，对中文语境、搜索引擎及平台生态考虑不足。中文互联网信息碎片化严重、搜索入口多样、语言表达复杂，信息分散在多平台，语言结构含省略、典故、代指，搜索引擎质量参差不齐。因此，需要从中文语境原生设计测试，才能衡量大模型在中文网页上的“看、搜、推”能力。

BrowseComp-ZH的构建方法

研究团队运用“逆向设计法”，从明确可验证的事实答案出发，反向构造多个约束条件的复杂问题。确保三大搜索引擎首屏无法直接命中答案，主流大模型检索模式下无法直接答对，且问题结构清晰、答案唯一。最终构建了289道高难度中文多跳检索题目，覆盖11大领域。

大模型测试结果与启示

在BrowseComp-ZH测试中，多款主流大模型集体“翻车”。多数模型准确率低于10%，仅少数突破20%。这表明模型不仅要会“查资料”，更要具备“多跳推理”与“信息整合”能力，才能在中文互联网找到答案。

中文网页任务的“模型死角”

一是纯靠参数记忆的模型准确率低，说明“硬背”不可行；二是有推理能力的模型表现更好，如DeepSeek – R1比DeepSeek -V3高出14.5%；三是具备多轮检索能力的AI搜索产品更优，如DeepResearch、豆包DeepSearch等，而只检索一次的模型准确率低；四是部分模型开启搜索功能后准确率下降，如DeepSeek -R1开启后从23.2%跌至7.6%，原因是未能有效融合信息。

数据集开放与未来计划

研究者希望BrowseComp-ZH成为推动大模型在中文信息环境落地的试金石。下一步，计划扩充样本规模、拓展问答形式，深入分析模型推理路径与失败案例。论文地址为https://arxiv.org/abs/2504.19314，代码地址为https://github.com/PALIN2018/BrowseComp-ZH 。

# AI快讯

文章版权归作者所有，未经允许请勿转载。

BrowseComp-ZH测试大模型，OpenAI DeepResearch仅四成准确率

热门AI工具

相关文章