LLM数学能力大考验:2025 USAMO评估结果惊人

AI快讯2个月前发布 niko
5 0
AiPPT - 一键生成ppt

近期,ETH等团队的一项研究引发热议,该研究聚焦于LLM的数学能力,采用2025年美国数学奥林匹克竞赛(USAMO)对多个模型展开评估。

此前,LLM在AIME上有出色表现,然而此次在USAMO六道基于证明的数学题测试中,所有大模型得分均低于5%。其中,DeepSeek-R1表现最佳,得分为4.76%;OpenAIo3-mini(high)最差,仅2.08%。

研究还发现,模型存在诸多问题。逻辑错误方面,推理时做出不合理跳跃或忽视关键步骤;缺乏创造力,多坚持有缺陷策略,未探索替代方案;评分失败,自动评分大幅高估得分。

值得一提的是,DeepSeek在一次尝试中几乎完全解决问题4。而整体来看,LLM的数学泛化能力及证明能力存疑,此前或只是记住训练数据中的答案。

此次评估方法严谨,为模型提供题目并要求生成LaTeX详细证明,每个模型对每道题独立求解4次,解答匿名化处理后供专家评分。评分团队由四位经验丰富的专家组成,仿照IMO评估流程,制定标准化评分方案。

评估结果显示,新的评估揭示了LLM在生成严谨数学证明方面的显著不足。所有受测模型的最高平均得分均低于5%,近150份解答无满分。常见失效模式包括逻辑缺陷、关键步骤敷衍、推理缺乏创造性等。

此外,评审专家还记录了模型的共性问题。如答案框定问题,GRPO等技术使模型形成固定思维,削弱推理能力;盲目泛化倾向,模型从特殊案例直接跳跃到普遍结论;解答结构与清晰度方面,不同模型差异显著。

© 版权声明
Trea - 国内首个原生AI IDE