AI 在普特南数学竞赛的表现:速度惊人但准确率堪忧

AI快讯2周前发布 niko
11 0

【导读】年末在MIT沃克纪念堂举办的北美最具挑战性的本科生数学竞赛,再次吸引人们的瞩目。这场竞赛聚集了众多北美顶尖大学的3500余学生,要求在六个小时完成参赛题目。而最新的AI模型o1 pro在这场比赛中仅用半小时就完成了所有题目,但其准确率却引发了热烈讨论。

每年一届的年度数学竞赛Putnam Exam, 是一场为北美高校本科生举办的高水平数学竞赛。竞赛吸引了来自数百所学校的个体及团队参加,竞争可谓相当激烈,他们被要求在六小时内解决题目。据传,在竞赛题目公开后会有AI大模型对答案进行测试——这正是IBM研究员暗示的一个情况。随着OpenAI的最新满血版o1和其加强版o1 pro的发布,人们开始关注这些AI模型在竞赛中的表现。据官方数据,对比o1-preview,o1的数学性能提升了27%,而o1 pro提升了36%。
令人惊讶的是,有网友将此次Putnam Exam的题目交给了OpenAI o1 pro,而它仅用半小时就完成了六小时的赛题。其中,最长用时一题为6分52秒,最短仅为1分12秒。在对答案进行详细核查后,许多网友表示,o1 pro的表现远没有达到Putnam Exam的要求。例如题目A1,虽然它只用了1分钟就解决问题,思路正确,但错误众多;而题目A2也没有完全解决。显然,在Putnam Exam上标注“……强烈暗示这是正确的”是不可能得分的。对于题目A3,网友也指出其答案是错误的,并给出了正确的解题思路,运用鸽巢原理证明在给定条件下没有有效的双射函数,因此不存在相应的a、b、c、d值。对于B1题,虽然o1 pro在n和k的形式上答对了,但其证明方法却完全站不住脚。总之,o1 pro似乎没有一个题目是完全正确的,在某些题目的难度较AIME竞赛要低的情况下。
目前的结果显示,尽管o1 pro能迅速答题,但所有答案都是错误且不完整的。如果没有以数学家的标准来评判,或许可以认为o1 pro相当聪明。
更多评测
CodeSignal创始人开启了大规模测试,邀请o1 pro解Putnam Exam的A1题和IMO题目。在Putnam Exam的测试中,o1 pro准确解决了第一题,加上十点得分便可超越30%的参赛者。在IMO测试中,o1 pro仅用6分48秒就完美解决2006年的Q3难题,相比之下,2006年全球顶尖的500名19岁以下数学天才中,只有28人在四个半小时内完全解出了这道题。尽管美国队的6名成员也未能完成。xAI科学家Hieu Pham认为o1 pro的答案荒谬至极,如果在IMO中提交这样的解答,最多只有1分(满分7分)。他继续指出,训练数据问题是一个关键因素,这样的答案令人怀疑。另一位研究员测试后称,o1似乎解决了一半问题(60分/满分120),排名可能在前2%的参赛者之列。
o1挑战23年赛题
今年9月,OpenAI发布新模型o1后,AI评估平台HoneyHive便让新模型挑战今年的Putnam Exam题目。OpenAI的测试结果显示,o1的数学性能超过GPT-4o,增长了43.3%。这场比赛中,o1-preview得到79分位居第9,o1-mini得到73分排名第19。2023年Putnam Exam的问题集如下所示。
根据HoneyHive的评估方法,每个模型要运行两次,GPT-4o作为判断标准,最后由人类专家验证。在让GPT-4o扮演“评估者”的角色提示示例中,研究人员发现第二次运行时o1-preview和o1-mini的得分提高,分别为79和73,GPT-4o也提高到57。在第二次中,所有模型的努力提供证明,o1-preview完全解决了问题A1、A3和B4,部分解决了问题B2但证明不够。o1-mini的结果与o1-preview类似,GPT-4o只是完全解决了A1问题。有趣的是,这些模型虽然结果正确,但都缺乏详细步骤的解释,特别是对于证明类型的问题。o1-preview和o1-mini由于证据不充分和不够严谨在B2问题上失去了一些分数,尽管最终结果是正确的。
一位IBM研究员表示,AI能拿下高分存在数据泄露的可能性。

比赛介绍
Putnam数学竞赛,也称为William Lowell Putnam Mathematical Competition,专门为美国和加拿大本科生设立,每年于12月举行。它是从1938年开始的大学数学竞赛。这场比赛现在是全球最具权威的大学数学竞赛之一,每年的12月,数百所大学的数学尖子生都会在为期六小时的考试中展现自己的才华。尽管考生需要独立完成试卷,但也设置了团队竞赛环节。Putnam竞赛不仅是知识竞争,而且是一个荣誉的象征。排名最高的团队将获得现金奖励,学生成员还能获得‘Putnam研究员’的称号。此外,还有个‘The Elizabeth Lowell Putnam Prize’奖项,这个奖项专门为表现出色的女性数学家设立。去年第84届比赛中,五个个人获奖者都来自MIT,团体获奖者前五名分别来自世界高校:MIT、哈佛、杜克、斯坦福、多伦多大学。

© 版权声明

相关文章

暂无评论

暂无评论...