o4-mini挑战菲尔兹奖级难题，AI数学家突破在即？

AI快讯1年前 (2025)发布 niko

AI数学家重大突破将至

谷歌前CEO Eric Schmidt预测，未来1 – 2年内，「超级程序员」和「AI数学家」将有重大突破。在Epoch AI举办的FrontierMathCompetition中，o4 – mini和o4 – mini – medium的表现，便是一个很好的开端。

竞赛情况：AI击败多组人类团队

此次竞赛邀请约40位数学精英，分成8组，与AI在FrontierMath基准上展开对决。FrontierMath于24年11月推出，由菲尔兹奖得主等出题，含300个从高年级本科生到菲尔兹奖级别的难题。比赛选23题，限时4.5小时。o4- mini一举击败6组团队，o4 – mini -medium超越人类平均水平，解决约22%题目，但不如人类团队综合得分。目前数据只是小型非代表性子集，人类整体基准约在30 – 50%。

人类表现分析：未达数学SOTA

人类团队表现因组成和专长分布不均，且4.5小时限时限制了发挥，可能低估真实水平。研究团队用团队平均得分（约19%）和综合得分（约35%）计算人类基准，还按难度层级拆分结果并加权，得出人类基准约30%，「多次尝试」法下达52%，而AI加权得分约37%。

比赛设计：注重推理能力

FrontierMath比赛注重数学推理，非单纯知识储备。题目覆盖拓扑学、代数几何、组合数学和数论，分通用和高级题。采用特殊计分规则和丰厚奖金激励。

AI前景：全面超越或指日可待

虽o4 – mini – medium未完全超越人类，但表现瞩目，得分与顶尖团队相当且知识广度占优。EpochAI预测，到2025年底，AI可能明确超越30% – 50%的人类基准。不过，AI成功机制待探索，其在竞赛的表现能否转化为研究突破，还需时间验证。

# AI快讯

文章版权归作者所有，未经允许请勿转载。