多学科认知推理基准OlympicArena挑战AI系统，推动模型评测创新发展

为深入检验人工智能的综合认知能力，研究人员开始聚焦国际奥林匹克竞赛和算法挑战等难题。然而，此前一直缺乏奥林匹克级别的多学科基准。

上海交通大学生成式人工智能实验室（GAIRLab）研究团队适时推出多学科认知推理基准OlymPicArena。测试结果显示，即使强大如 GPT-4o，整体准确率也仅为34.01%，其他开源模型更是难以达到20%。这充分彰显了该基准测试的高难度与严谨性。

OlympicArena的创新之处不止于此，为防止模型“刷题”，团队引入数据泄漏检测技术，经检测，99.6%的题目未被预训练数据污染。此外，它还提供了基准数据集、开源注释平台等全面资源，助力人工智能研究。

OlympicArena覆盖数学、物理等7大领域，34个分支，题目源自62项顶尖赛事，共11163道双语题目。AGI-Eval大模型评测团队验证发现，其整体难度偏难，仅次于该团队私有的两个高中数学竞赛题目。

在AGI-Eval大模型评测社区的新评测中，推理系模型和新迭代版本表现提升明显。o1和DeepSeek-R1水平相近，但在不同学科各有优势。

学科分析表明，化学、生物等学科难度分档不同，数学和物理对部分模型来说更具挑战性。题型分析显示，1-5排名的推理模型在非选择题上优势显著。难度分析则建议后续模型评测只构建Hard难度题目。

OlympicArena不仅是现有模型的试金石，更启示我们仅靠数据堆砌无法实现真正智能。未来，AGI-Eval大模型评测团队提出人机协作评测模式及10q全新玩法，有望为AI发展开拓更多可能。

文章版权归作者所有，未经允许请勿转载。