全新知识推理基准测试SuperGPQA发布 字节跳动豆包大模型团队携手M-A-P开源社区,推出了SuperGPQA这一知识推理基准测试。该测试可不简单,它覆盖的学科范围极为广泛,多达285个研究生级学科,包含26,529道专业问题。
填补长尾知识领域空白SuperGPQA的独特之处在于,不仅将数学、物理等主流学科纳入其中,还首次把轻工业、农业、服务科学等长尾学科融入评估体系,成功弥补了现有基准测试在长尾知识领域的空缺,成为AI发展进程中的重要助力。
构建机制与题目特点传统基准测试如MMLU和GPQA存在学科覆盖少、数据来源单一、众包标注不可靠等问题,难以衡量模型在复杂场景下的推理能力。而SuperGPQA借助专家-LLM协同机制,从权威来源精心筛选问题,历经半年时间构建完成。其题目平均设有9.67个选项,42.33%需要进行数学计算或形式推理,兼顾了广度与深度。
提升质量的三阶段流程SuperGPQA为保证质量,采用了三阶段流程。首先由专家筛选原始问题,接着进行规范化转录,最后经过多层质量检验,包括规则过滤、LLM检测以及专家复审。评测结果显示,指令微调能显著提升模型性能,像DeepSeek-V3得分就超过了基础版,不过开源模型在难题上依旧落后于闭源方案。
相关链接论文链接:https://arxiv.org/pdf/2502.14739;数据链接:https://HuggingFace.co/datasets/m-a-p/SuperGPQA;代码链接:https://github.com/SuperGPQA/SuperGPQA。
© 版权声明
文章版权归作者所有,未经允许请勿转载。