谷歌DeepMind开发的AI系统AlphaGeometry2,在几何问题解答方面成绩斐然,已超越国际数学奥林匹克(IMO)金牌选手的平均水平。作为去年发布的AlphaGeometry系统的升级版,它在解决过去25年间IMO的几何问题上,成功率高达84%。

DeepMind关注IMO这一高中数学竞赛,源于解决复杂几何问题的新方法或许是提升AI能力的关键,特别是在欧几里得几何领域。证明数学定理所需的推理能力与选择合适解决步骤的能力,对未来通用AI模型的发展意义重大。
今年夏天,DeepMind展示了结合AlphaGeometry2与AlphaProof(用于正式数学推理的AI模型)的系统,此系统在2024年IMO预选赛中六道题解决了四道。而且,这种方法不仅局限于几何问题,还可能拓展到数学和科学的其他领域,甚至能助力处理复杂的工程计算。
AlphaGeometry2的核心由谷歌Gemini家族语言模型和“符号引擎”构成。Gemini模型辅助符号引擎依据数学规则推导问题解决方案,其工作流程为:Gemini模型先预测对解题有帮助的构造,随后符号引擎据此进行逻辑推理。经过复杂搜索,AlphaGeometry2将Gemini模型建议与已知原则相结合得出证明。
尽管AlphaGeometry2在解决IMO的50道问题中成功解答42道,超越金牌选手平均得分,但它也存在一些局限性,例如无法处理变量数量不定的点、非线性方程和不等式。在一些难题上,其表现也不尽人意,29道难题中仅解决了20道。
这项研究再度引发关于AI系统构建应基于符号操作还是类脑神经网络的讨论。AlphaGeometry2采用混合方法,融合了神经网络和基于规则的符号引擎。DeepMind团队指出,虽大型语言模型可在无外部工具时生成部分解决方案,但当前情况下,符号引擎在数学应用中仍是重要工具。