AI数学家重大突破将至
谷歌前CEO Eric Schmidt预测,未来1 – 2年内,「超级程序员」和「AI数学家」将有重大突破。在Epoch AI举办的FrontierMathCompetition中,o4 – mini和o4 – mini – medium的表现,便是一个很好的开端。
竞赛情况:AI击败多组人类团队
此次竞赛邀请约40位数学精英,分成8组,与AI在FrontierMath基准上展开对决。FrontierMath于24年11月推出,由菲尔兹奖得主等出题,含300个从高年级本科生到菲尔兹奖级别的难题。比赛选23题,限时4.5小时。o4- mini一举击败6组团队,o4 – mini -medium超越人类平均水平,解决约22%题目,但不如人类团队综合得分。目前数据只是小型非代表性子集,人类整体基准约在30 – 50%。
人类表现分析:未达数学SOTA
人类团队表现因组成和专长分布不均,且4.5小时限时限制了发挥,可能低估真实水平。研究团队用团队平均得分(约19%)和综合得分(约35%)计算人类基准,还按难度层级拆分结果并加权,得出人类基准约30%,「多次尝试」法下达52%,而AI加权得分约37%。
比赛设计:注重推理能力
FrontierMath比赛注重数学推理,非单纯知识储备。题目覆盖拓扑学、代数几何、组合数学和数论,分通用和高级题。采用特殊计分规则和丰厚奖金激励。
AI前景:全面超越或指日可待
虽o4 – mini – medium未完全超越人类,但表现瞩目,得分与顶尖团队相当且知识广度占优。EpochAI预测,到2025年底,AI可能明确超越30% – 50%的人类基准。不过,AI成功机制待探索,其在竞赛的表现能否转化为研究突破,还需时间验证。
© 版权声明
文章版权归作者所有,未经允许请勿转载。