BrowseComp-ZH测试大模型,OpenAI DeepResearch仅四成准确率

AI快讯1周前发布 niko
6 0
AiPPT - 一键生成ppt

新基准测试集暴露大模型短板

由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集BRowseComp-ZH,让20多个中外主流大模型在测试中表现不佳。GPT- 4o准确率仅6.2%,多数国产/国际模型准确率跌破10%,即使表现最好的OpenAIDeepReseARCh也仅达到42.9%。目前,BrowseComp-ZH的全部数据已开源发布。

中文网页能力测试的必要性

当下大模型虽擅长使用工具,但众多评估工具多基于英文语境,对中文语境、搜索引擎及平台生态考虑不足。中文互联网信息碎片化严重、搜索入口多样、语言表达复杂,信息分散在多平台,语言结构含省略、典故、代指,搜索引擎质量参差不齐。因此,需要从中文语境原生设计测试,才能衡量大模型在中文网页上的“看、搜、推”能力。

BrowseComp-ZH的构建方法

研究团队运用“逆向设计法”,从明确可验证的事实答案出发,反向构造多个约束条件的复杂问题。确保三大搜索引擎首屏无法直接命中答案,主流大模型检索模式下无法直接答对,且问题结构清晰、答案唯一。最终构建了289道高难度中文多跳检索题目,覆盖11大领域。

大模型测试结果与启示

在BrowseComp-ZH测试中,多款主流大模型集体“翻车”。多数模型准确率低于10%,仅少数突破20%。这表明模型不仅要会“查资料”,更要具备“多跳推理”与“信息整合”能力,才能在中文互联网找到答案。

中文网页任务的“模型死角”

一是纯靠参数记忆的模型准确率低,说明“硬背”不可行;二是有推理能力的模型表现更好,如DeepSeek – R1比DeepSeek -V3高出14.5%;三是具备多轮检索能力的AI搜索产品更优,如DeepResearch、豆包DeepSearch等,而只检索一次的模型准确率低;四是部分模型开启搜索功能后准确率下降,如DeepSeek -R1开启后从23.2%跌至7.6%,原因是未能有效融合信息。

数据集开放与未来计划

研究者希望BrowseComp-ZH成为推动大模型在中文信息环境落地的试金石。下一步,计划扩充样本规模、拓展问答形式,深入分析模型推理路径与失败案例。论文地址为https://arxiv.org/abs/2504.19314,代码地址为https://github.com/PALIN2018/BrowseComp-ZH 。

© 版权声明
Trea - 国内首个原生AI IDE