o4-mini推理聊天机器人挑战数学难题，逼近数学天才水平

AI快讯1年前 (2025)发布 niko

推理聊天机器人挑战数学权威

五月中旬，一场秘密数学会议在美国加州伯克利举行，30位世界著名数学家与o4-mini支持的推理聊天机器人展开对决。该机器人基于推理大型语言模型o4-mini，由OpenAI训练，和谷歌的gemini2.5 Flash一样，具有高度复杂推理能力。

o4-mini突破传统推理局限

o4-mini比早期LLM更轻量级、灵活，经专门数据集和人类强化训练，能深入研究复杂数学问题。EpochAI为追踪其进展，设计300道未公布答案的数学题，传统LLM表现不佳，而o4-mini展现出超越局限的潜力。

FrontierMath项目见证飞跃

2024年9月开展的FrontierMath项目收集不同难度数学问题。到2025年4月，o4-mini能解决约20%问题。进入第四级别测试，数学家设计极具挑战性问题，o4-mini每答错一题，出题者获7500美元奖励。

“调皮天才”震惊学界

会议期间，KenOno提出数论开放性问题，o4-mini在10分钟内给出俏皮且正确的解决方案，其推理过程令Ono震惊。研究人员既惊叹其进步，也担忧结果被过度信任，因其掌握了“威吓证明”技巧。

数学传承引发思考

会议结束，数学家开始思考未来。若人工智能达到“第五层”，数学家角色将巨变，可能转向提出问题与机器人互动。Ono认为在高等教育培养创造力是数学传承关键。

文章版权归作者所有，未经允许请勿转载。