OpenAI o4-mini挑战数学难题，AI数学能力惊人突破

AI快讯1年前 (2025)发布 niko

AI数学能力展现惊人实力近期，30位全球顶尖数学家与OpenAI的o4-mini展开一场激烈对决。这场在UC伯克利举办的秘密数学会议上，数学家们试图用精心设计的教授级难题难倒o4-mini。结果令人震惊，o4-mini成功解决了一部分世界上最难的可解问题，其表现让数学家们集体折服。

o4-mini与同类模型的出色能力o4-mini具备极其复杂的推理能力，这得益于它基于专门数据集的训练和更强的RLHF方法。这种方法使其能比传统的LLM更深入钻研复杂数学问题。除o4-mini外，谷歌的gemini2.5 Flash也有相似能力。

Epoch AI的测试与探索 OpenAI委托EpochAI设计300道解法未公开的数学题考验大模型。多数推理模型在这些题面前几乎全部翻车，表现最好的解出率也不到2%。2024年9月，EpochAI启动代号为FrontierMath的基准测试项目，聘请ElliotGlazer参与。到2025年2月，o4-mini能解出约20%的题目。在今年5月的竞赛中，o4-mini-medium解决了约22%的题目，击败了六组人类团队。

T4级测试的挑战与成果Glazer着手进行T4级测试，需找出100道对专业数学家也极具挑战的难题。为保证测试数据不被污染，他要求数学家签署保密协议并通过加密通讯应用交流。5月17- 18日的线下会议上，数学家们分组设计难题，出题人若难倒o4-mini可获7500美元奖励。然而，o4-mini表现出色，如解出KenOno给出的博士生水平数论题，其推理过程让数学家大受震撼。最终团队找到10道难倒它的题，但o4-mini的能力仍令人惊叹。

AI对数学研究的影响与思考数学家们感受到o4-mini带来的冲击，担心其结果会被过度信赖。会议临近结束时，大家开始思考数学家未来的角色转变。若AI达到更高层次，数学家可能转向提出问题并引导AI发现新数学真理。同时，陶哲轩一直关注AI在数学研究中的进展，如AlphaEvolve与人类联手突破数学难题，GitHubCoPilot在数学证明中有一定辅助作用，但也存在短板。这表明在未来数学研究中，高度计算机辅助、中度计算机辅助与传统方法将相互作用。

# AI快讯

文章版权归作者所有，未经允许请勿转载。