LLM数学能力大考验：2025 USAMO评估结果惊人

AI快讯1年前 (2025)发布 niko

近期，ETH等团队的一项研究引发热议，该研究聚焦于LLM的数学能力，采用2025年美国数学奥林匹克竞赛（USAMO）对多个模型展开评估。

此前，LLM在AIME上有出色表现，然而此次在USAMO六道基于证明的数学题测试中，所有大模型得分均低于5%。其中，DeepSeek-R1表现最佳，得分为4.76%；OpenAIo3-mini（high）最差，仅2.08%。

研究还发现，模型存在诸多问题。逻辑错误方面，推理时做出不合理跳跃或忽视关键步骤；缺乏创造力，多坚持有缺陷策略，未探索替代方案；评分失败，自动评分大幅高估得分。

值得一提的是，DeepSeek在一次尝试中几乎完全解决问题4。而整体来看，LLM的数学泛化能力及证明能力存疑，此前或只是记住训练数据中的答案。

此次评估方法严谨，为模型提供题目并要求生成LaTeX详细证明，每个模型对每道题独立求解4次，解答匿名化处理后供专家评分。评分团队由四位经验丰富的专家组成，仿照IMO评估流程，制定标准化评分方案。

评估结果显示，新的评估揭示了LLM在生成严谨数学证明方面的显著不足。所有受测模型的最高平均得分均低于5%，近150份解答无满分。常见失效模式包括逻辑缺陷、关键步骤敷衍、推理缺乏创造性等。

此外，评审专家还记录了模型的共性问题。如答案框定问题，GRPO等技术使模型形成固定思维，削弱推理能力；盲目泛化倾向，模型从特殊案例直接跳跃到普遍结论；解答结构与清晰度方面，不同模型差异显著。

文章版权归作者所有，未经允许请勿转载。