OpenAI o3-preview登顶AI奥数赛：高算力逼近满分，开源与闭源模型差距再缩小

2025年AI数学奥林匹克（AIMO2）进展奖近期收官，除了开源模型在高阶数学推理中的突破，闭源模型的首次“跨界参赛”更成为行业焦点——OpenAI未发布的o3-preview模型在高算力配置下，针对AIMO2公共榜50道奥数题的解答逼近满分，而英伟达NemoSkills、清华微软imagination-research等开源TOP模型在算力释放后得分显著提升，开源与闭源模型的推理性能差距因算力成本因素进一步收敛。

赛事背景：AIMO2聚焦奥赛级数学推理，闭源模型表现成“未答之问”

AIMO创立于2023年，核心目标是推动开源AI在高阶数学推理中的发展。2025年的AIMO2赛题难度升级至英、美奥赛（BMO、USAMO）级别，吸引全球2000余支队伍参赛。最终私榜排名中，NemoSkills（34/50）、imagination-research（31/50）分获前二，但闭源模型在奥赛题中的表现始终是行业未解决的关键问题。

闭源模型测试：o3-preview高算力逼近满分，通用模型超预期

为填补这一空白，AIMO与OpenAI合作，将o3-preview（o3未发布版本）应用于AIMO2公共榜50道题。测试设置低、中、高三种算力配置，结果显示：

低算力版本：43/50（每题成本约1美元）；
中等算力版本：46/50；
高算力版本（采用“采样-排序”机制）：仅计排名第一答案便达47/50，若计入前两名答案则直接满分解题。

更关键的是，o3-preview作为通用模型未针对数学优化，却能在高算力下接近“性能饱和”——这意味着闭源模型的推理能力已能覆盖奥赛级数学问题，结果远超行业预期。

OpenAI o3-preview登顶AI奥数赛：高算力逼近满分，开源与闭源模型差距再缩小

开源模型算力释放：TOP队伍得分提升，算力赋能潜力显现

针对开源TOP模型，组委会移除了Kaggle平台的算力限制（从4块L4 GPU升级至8块H100 GPU，显存从96GB增至640GB），让模型充分释放性能。最终结果显示：

NemoSkills得分从33/50提升至35/50；
imagination-research得分从34/50提升至35/50。

虽提升幅度有限，但验证了算力对开源模型的赋能潜力——开源模型在算力释放后，能更接近其“理论性能上限”。

差距分析：绝对性能闭源仍领先，算力成本让差距“收敛”

从绝对性能看，闭源模型仍保持优势：o3-preview低算力版本（43/50）已超过开源TOP模型的35/50；但纳入算力成本后，差距显著缩小——o3-preview低算力版本每题成本约1美元，与开源模型在8×H100 GPU上的运行成本处于同一数量级（商业租赁8×H100的单模型运行成本与o3-preview接近）。

更值得关注的是，2000余支开源队伍的最佳结果合并（AIMO2-combined）也达到47/50，与o3-preview高算力版本的47/50持平——这意味着“群智”（开源生态的集体优化）与单闭源模型的性能已可匹敌。

未来展望：AIMO3升级至IMO难度，开源闭源竞争将更激烈

组委会透露，AIMO3将于2025年秋季启动，赛题难度将再次升级至国际数学奥林匹克（IMO）水平。届时，奖金池、竞赛形式将进一步优化，开源与闭源模型的竞争将更聚焦“极致推理性能”。完整细节将于近期公布。

参考资料：https://aimoprize.com/updates/2025-09-05-the-gap-is-shrinking

本文来自微信公众号“新智元”，作者：桃子KingHZ ，36氪经授权发布。

# AI快讯

文章版权归作者所有，未经允许请勿转载。