为深入检验人工智能的综合认知能力,研究人员开始聚焦国际奥林匹克竞赛和算法挑战等难题。然而,此前一直缺乏奥林匹克级别的多学科基准。
上海交通大学生成式人工智能实验室(GAIRLab)研究团队适时推出多学科认知推理基准OlymPicArena。测试结果显示,即使强大如GPT-4o,整体准确率也仅为34.01%,其他开源模型更是难以达到20%。这充分彰显了该基准测试的高难度与严谨性。
OlympicArena的创新之处不止于此,为防止模型“刷题”,团队引入数据泄漏检测技术,经检测,99.6%的题目未被预训练数据污染。此外,它还提供了基准数据集、开源注释平台等全面资源,助力人工智能研究。
OlympicArena覆盖数学、物理等7大领域,34个分支,题目源自62项顶尖赛事,共11163道双语题目。AGI-Eval大模型评测团队验证发现,其整体难度偏难,仅次于该团队私有的两个高中数学竞赛题目。
在AGI-Eval大模型评测社区的新评测中,推理系模型和新迭代版本表现提升明显。o1和DeepSeek-R1水平相近,但在不同学科各有优势。
学科分析表明,化学、生物等学科难度分档不同,数学和物理对部分模型来说更具挑战性。题型分析显示,1-5排名的推理模型在非选择题上优势显著。难度分析则建议后续模型评测只构建Hard难度题目。
OlympicArena不仅是现有模型的试金石,更启示我们仅靠数据堆砌无法实现真正智能。未来,AGI-Eval大模型评测团队提出人机协作评测模式及10q全新玩法,有望为AI发展开拓更多可能。
© 版权声明
文章版权归作者所有,未经允许请勿转载。