AI数学能力展现惊人实力近期,30位全球顶尖数学家与OpenAI的o4-mini展开一场激烈对决。这场在UC伯克利举办的秘密数学会议上,数学家们试图用精心设计的教授级难题难倒o4-mini。结果令人震惊,o4-mini成功解决了一部分世界上最难的可解问题,其表现让数学家们集体折服。
o4-mini与同类模型的出色能力o4-mini具备极其复杂的推理能力,这得益于它基于专门数据集的训练和更强的RLHF方法。这种方法使其能比传统的LLM更深入钻研复杂数学问题。除o4-mini外,谷歌的gemini2.5 Flash也有相似能力。
Epoch AI的测试与探索 OpenAI委托EpochAI设计300道解法未公开的数学题考验大模型。多数推理模型在这些题面前几乎全部翻车,表现最好的解出率也不到2%。2024年9月,EpochAI启动代号为FrontierMath的基准测试项目,聘请ElliotGlazer参与。到2025年2月,o4-mini能解出约20%的题目。在今年5月的竞赛中,o4-mini-medium解决了约22%的题目,击败了六组人类团队。
T4级测试的挑战与成果Glazer着手进行T4级测试,需找出100道对专业数学家也极具挑战的难题。为保证测试数据不被污染,他要求数学家签署保密协议并通过加密通讯应用交流。5月17- 18日的线下会议上,数学家们分组设计难题,出题人若难倒o4-mini可获7500美元奖励。然而,o4-mini表现出色,如解出KenOno给出的博士生水平数论题,其推理过程让数学家大受震撼。最终团队找到10道难倒它的题,但o4-mini的能力仍令人惊叹。
AI对数学研究的影响与思考数学家们感受到o4-mini带来的冲击,担心其结果会被过度信赖。会议临近结束时,大家开始思考数学家未来的角色转变。若AI达到更高层次,数学家可能转向提出问题并引导AI发现新数学真理。同时,陶哲轩一直关注AI在数学研究中的进展,如AlphaEvolve与人类联手突破数学难题,GitHubCoPilot在数学证明中有一定辅助作用,但也存在短板。这表明在未来数学研究中,高度计算机辅助、中度计算机辅助与传统方法将相互作用。