AIMO2竞赛:英伟达14B夺冠,清华团队获佳绩

AI快讯5天前发布 niko
14 0
AiPPT - 一键生成ppt

第二届人工智能数学奥林匹克竞赛(AIMO2)成绩公布,竞赛亮点颇多。

大赛顾问委员会成员陶哲轩宣布结果,英伟达团队的AI表现出色,成功解答34道题(共50题)。此次竞赛的50道测试题在延续AIMO1「数值答案」形式基础上,加大「抗暴力破解」难度。该竞赛由Kaggle主办,参赛者需用开源LLM,在有限算力条件下解题。目前最终成绩尚在审核,但大概率胜者已能确定。

英伟达深度学习研究员透露,团队用14B小模型摘得桂冠。令人惊喜的是,微调后的14B超越405B的DeepSeek R1。此14B模型为Qwen -14B,在数百万合成数学测试集微调,支持CoT推理。其高度优化推理,仅用4个L4GPU,5小时内解决34个问题。不过,因团队未提交解决方案,技术细节暂无法得知。英伟达团队由7人组成,包括Christof Henkel、DarraghHanley等。

在本次竞赛中,清华和微软的三人团队荣获第二名,成员有清华大学研究助理教授Foxfi Ning、微软高级研究员ZinanLin以及清华学子yiyouyc。公开排行榜上他们34/50排名第一,私有排行榜31/50排名第二。且他们是Top -5中唯一公开解决方法的团队。其解决方案分三部分:推理导向训练,通过阶段1 – SFT(监督微调)和阶段2 -DPO(数据增强优化)精选数据提升推理能力;效率优化,选择合适推理引擎、权重量化、KV缓存量化提升推理效率;推理时策略,设计有效提示语、进行自一致性聚合等改善效率与推理性能权衡。训练脚本基于Light- R1项目,本地验证用AIME 2025测试集及参考集评估准确率。

此外,竞赛第三名是Nokron,AI得分30;第四名是Søren Ravn Andersen,AI得分29;第五名是来自浙江杭州的匿名选手,AI得分29。

AIMO竞赛意义重大,它是总金额达1000万美元的基金项目,旨在激励开发能与国际数学奥林匹克顶尖人类选手媲美的开源AI模型。本届竞赛有110道数学题,涵盖代数、组合数学等领域,难度达国家奥林匹克竞赛水平,题目针对当前开源大语言模型能力测试设计,由国际解题团队创作新题,避免训练与测试数据混淆。

竞赛评估方式依据预测结果与真实答案的准确率,真实答案为0到999之间整数。奖项设置丰富,总奖金211.7152万美元,前五名团队奖金分别为26.2144万美元、13.1072万美元等。总体进步奖颁发给公开和私有测试集均至少47/50分的最高排名团队,剩余奖金归其所有,若无人获此奖,奖金滚入下一届。

竞赛对代码提交也有要求,需通过Notebook完成,CPU Notebook运行时间≤9小时,GPUNotebook运行时间≤5小时,禁用互联网访问,允许使用免费公开外部数据及预训练模型,提交文件需通过APi生成。

© 版权声明
Trea - 国内首个原生AI IDE