2025年AI数学奥林匹克(AIMO2)进展奖近期收官,除了开源模型在高阶数学推理中的突破,闭源模型的首次“跨界参赛”更成为行业焦点——OpenAI未发布的o3-preview模型在高算力配置下,针对AIMO2公共榜50道奥数题的解答逼近满分,而英伟达NemoSkills、清华微软imagination-research等开源TOP模型在算力释放后得分显著提升,开源与闭源模型的推理性能差距因算力成本因素进一步收敛。
赛事背景:AIMO2聚焦奥赛级数学推理,闭源模型表现成“未答之问”
AIMO创立于2023年,核心目标是推动开源AI在高阶数学推理中的发展。2025年的AIMO2赛题难度升级至英、美奥赛(BMO、USAMO)级别,吸引全球2000余支队伍参赛。最终私榜排名中,NemoSkills(34/50)、imagination-research(31/50)分获前二,但闭源模型在奥赛题中的表现始终是行业未解决的关键问题。
闭源模型测试:o3-preview高算力逼近满分,通用模型超预期
为填补这一空白,AIMO与OpenAI合作,将o3-preview(o3未发布版本)应用于AIMO2公共榜50道题。测试设置低、中、高三种算力配置,结果显示:
- 低算力版本:43/50(每题成本约1美元);
- 中等算力版本:46/50;
- 高算力版本(采用“采样-排序”机制):仅计排名第一答案便达47/50,若计入前两名答案则直接满分解题。
更关键的是,o3-preview作为通用模型未针对数学优化,却能在高算力下接近“性能饱和”——这意味着闭源模型的推理能力已能覆盖奥赛级数学问题,结果远超行业预期。
开源模型算力释放:TOP队伍得分提升,算力赋能潜力显现
针对开源TOP模型,组委会移除了Kaggle平台的算力限制(从4块L4 GPU升级至8块H100 GPU,显存从96GB增至640GB),让模型充分释放性能。最终结果显示:
- NemoSkills得分从33/50提升至35/50;
- imagination-research得分从34/50提升至35/50。
虽提升幅度有限,但验证了算力对开源模型的赋能潜力——开源模型在算力释放后,能更接近其“理论性能上限”。
差距分析:绝对性能闭源仍领先,算力成本让差距“收敛”
从绝对性能看,闭源模型仍保持优势:o3-preview低算力版本(43/50)已超过开源TOP模型的35/50;但纳入算力成本后,差距显著缩小——o3-preview低算力版本每题成本约1美元,与开源模型在8×H100 GPU上的运行成本处于同一数量级(商业租赁8×H100的单模型运行成本与o3-preview接近)。
更值得关注的是,2000余支开源队伍的最佳结果合并(AIMO2-combined)也达到47/50,与o3-preview高算力版本的47/50持平——这意味着“群智”(开源生态的集体优化)与单闭源模型的性能已可匹敌。
未来展望:AIMO3升级至IMO难度,开源闭源竞争将更激烈
组委会透露,AIMO3将于2025年秋季启动,赛题难度将再次升级至国际数学奥林匹克(IMO)水平。届时,奖金池、竞赛形式将进一步优化,开源与闭源模型的竞争将更聚焦“极致推理性能”。完整细节将于近期公布。
参考资料:https://aimoprize.com/updates/2025-09-05-the-gap-is-shrinking
本文来自微信公众号“新智元”,作者:桃子KingHZ ,36氪经授权发布。