字节跳动团队联合发布SuperGPQA：填补长尾知识领域基准测试空白

全新知识推理基准测试SuperGPQA发布 字节跳动豆包大模型团队携手M-A-P开源社区，推出了SuperGPQA这一知识推理基准测试。该测试可不简单，它覆盖的学科范围极为广泛，多达285个研究生级学科，包含26,529道专业问题。

填补长尾知识领域空白SuperGPQA的独特之处在于，不仅将数学、物理等主流学科纳入其中，还首次把轻工业、农业、服务科学等长尾学科融入评估体系，成功弥补了现有基准测试在长尾知识领域的空缺，成为AI发展进程中的重要助力。

构建机制与题目特点传统基准测试如MMLU和GPQA存在学科覆盖少、数据来源单一、众包标注不可靠等问题，难以衡量模型在复杂场景下的推理能力。而SuperGPQA借助专家-LLM协同机制，从权威来源精心筛选问题，历经半年时间构建完成。其题目平均设有9.67个选项，42.33%需要进行数学计算或形式推理，兼顾了广度与深度。

提升质量的三阶段流程SuperGPQA为保证质量，采用了三阶段流程。首先由专家筛选原始问题，接着进行规范化转录，最后经过多层质量检验，包括规则过滤、LLM检测以及专家复审。评测结果显示，指令微调能显著提升模型性能，像DeepSeek-V3得分就超过了基础版，不过开源模型在难题上依旧落后于闭源方案。

相关链接论文链接：https://arxiv.org/pdf/2502.14739；数据链接：https://HuggingFace.co/datasets/m-a-p/SuperGPQA；代码链接：https://github.com/SuperGPQA/SuperGPQA。

# AI快讯

文章版权归作者所有，未经允许请勿转载。