港大测试印证OpenAI o1非凡数学推理实力，轻松应对国内外奥数题目

AI快讯8个月前发布 niko

OpenAI Orion-1模型数学推理能力的验证

OpenAI o1的数学推理能力真的很强吗？最近，港大的研究团队对这一模型进行了严格的比较测试，在面对国际上的数学奥林匹克竞赛题目时，o1展示了自己的实力。

国际奥数题目对OpenAI o1来说是轻而易举的吗？港大的研究者以AB测试方法对模型进行了测试：
– 论文链接：访问论文

评估大语言模型（LLM）是否真正具有强大的数学推理能力的标准是：
– 借助两套卷子，一套可能被提前背题，一套不太可能被提前背题，两套卷子难度相同。
– 若LLM两次考试分数相近，则证明其真实能力；如果后者分数明显低于前者，则有作弊嫌疑。

本次研究中，OpenAI Orion-1模型面对的两套试卷分别来自国际数学奥林匹克（IMO）和中国国家队训练营（CNT）题目。

OpenAI Orion-1模型以强化学习方式训练，模拟推理和反思过程，导致在token生成中生成内在思维链风格。OpenAI表示，o1-mini在美国AIME数学竞赛中的分数可以排进全美前500。

为公平地测试o1的数学推理能力，研究者汇编了两个测试数据集：过去十年的国际奥数（IMO）60题及中国国家队（CNT）训练营60题（非公开）。

o1-mini在两组问题（Search和Solve类型）上的表现评估。指标是检查o1-mini能否提供正确答案。统计量表明，IMO和CNT问题间，o1-mini在性能上没有统计学上的显著差异。

o1以叙述风格呈现思维过程以及用数学严谨的语言撰写的解决方案。某些情况下，模型在思考过程中提供了关键的直觉，但同时也显示了模型在逻辑推理上的局限。

通过对特定问题（如两人轮流占位问题）的解答过程，o1-mini能够提供有用的直觉和正确答案，但同时也暴露了在推理逻辑上的不足。

基于上述分析，我们得出结论：o1-mini展现了强烈的推理能力，并不只是依赖记忆来解决数学问题。尽管如此，o1-mini在复杂空间推理和有效问题解决策略方面看来仍存在差距，与人类深入的推理和策略比较还有不足之处。

参考文章链接：论文原文。

文章版权归作者所有，未经允许请勿转载。