OpenAI Orion-1模型数学推理能力的验证
OpenAI o1的数学推理能力真的很强吗?最近,港大的研究团队对这一模型进行了严格的比较测试,在面对国际上的数学奥林匹克竞赛题目时,o1展示了自己的实力。
OpenAI o1能力验证:记忆力还是真实力?
国际奥数题目对OpenAI o1来说是轻而易举的吗?港大的研究者以AB测试方法对模型进行了测试:
– 论文链接:访问论文
评估大语言模型(LLM)是否真正具有强大的数学推理能力的标准是:
– 借助两套卷子,一套可能被提前背题,一套不太可能被提前背题,两套卷子难度相同。
– 若LLM两次考试分数相近,则证明其真实能力;如果后者分数明显低于前者,则有作弊嫌疑。
本次研究中,OpenAI Orion-1模型面对的两套试卷分别来自国际数学奥林匹克(IMO)和中国国家队训练营(CNT)题目。
验证细节
OpenAI Orion-1模型以强化学习方式训练,模拟推理和反思过程,导致在token生成中生成内在思维链风格。OpenAI表示,o1-mini在美国AIME数学竞赛中的分数可以排进全美前500。
奥数题目测试
为公平地测试o1的数学推理能力,研究者汇编了两个测试数据集:过去十年的国际奥数(IMO)60题及中国国家队(CNT)训练营60题(非公开)。
- 测试假设设定:
- 原假设:o1-mini的问题解决能力基于推理能力。
备择假设:o1-mini的性能可能源于记忆问题和解决方案,或模仿预训练模式。
实验配置:
- 通过LaTeX格式转换问题集以便o1模型处理。
- o1-mini直接处理Latex问题文件,以IMO或CNT数学竞赛的评分方法进行。
结果评估
o1-mini在两组问题(Search和Solve类型)上的表现评估。指标是检查o1-mini能否提供正确答案。统计量表明,IMO和CNT问题间,o1-mini在性能上没有统计学上的显著差异。
案例研究示例
o1以叙述风格呈现思维过程以及用数学严谨的语言撰写的解决方案。某些情况下,模型在思考过程中提供了关键的直觉,但同时也显示了模型在逻辑推理上的局限。
通过对特定问题(如两人轮流占位问题)的解答过程,o1-mini能够提供有用的直觉和正确答案,但同时也暴露了在推理逻辑上的不足。
基于上述分析,我们得出结论:o1-mini展现了强烈的推理能力,并不只是依赖记忆来解决数学问题。尽管如此,o1-mini在复杂空间推理和有效问题解决策略方面看来仍存在差距,与人类深入的推理和策略比较还有不足之处。
参考文章链接: 论文原文。