谷歌DeepMind研究实验室推出的AI系统AlphaGeometry2,在几何问题解决领域大放异彩,其表现超越了国际数学奥林匹克(IMO)比赛中的平均金牌得主。作为AlphaGeometry的改进版,AlphaGeometry2能解决过去25年IMO中84%的几何问题。

DeepMind关注高中数学竞赛,尤其是IMO,是因为他们认为寻找解决复杂几何问题,特别是欧几里得几何问题的新方法,或许是提升AI能力的关键。证明数学定理或阐释定理成立的原因,需要逻辑推理以及选择多个可能步骤的能力,若DeepMind的理论成立,这些问题解决能力对未来通用AI模型至关重要。
今年夏天,DeepMind展示了融合AlphaGeometry2与数学推理AI模型AlphaProof的系统,该系统在2024年IMO的六个问题中成功解决四个。这种方法不仅适用于几何问题,还能拓展到其他数学和科学领域,比如复杂的工程计算。
AlphaGeometry2的核心构成包含谷歌Gemini系列的语言模型和“符号引擎”。Gemini模型助力符号引擎依据数学规则推导出问题的可行解。IMO的几何问题常基于需添加“构造”(如点、线或圆)的图形,AlphaGeometry2的Gemini模型能够预测哪些构造对解题有帮助。
值得一提的是,AlphaGeometry2在解决IMO问题时,使用了DeepMind自行生成的超3亿个定理和证明的合成数据进行训练。研究团队选取过去25年IMO的45个几何问题并扩展成50个问题集,AlphaGeometry2成功解决其中42个,超越金牌得主平均得分。
然而,AlphaGeometry2并非完美,它存在一些局限,无法解决具有可变数量点、非线性方程和不等式的问题。即便如此,这项研究引发了关于AI系统应基于符号操作还是神经网络的讨论,AlphaGeometry2采用的是结合神经网络和基于规则的符号引擎的混合方法。
AlphaGeometry2的成功为通用AI的未来发展指引了新方向。尽管目前尚未完全自给自足,但DeepMind团队的研究预示着未来可能会涌现更多自足的AI模型。论文入口:https://arxiv.org/pdf/2502.03544