推理聊天机器人挑战数学权威
五月中旬,一场秘密数学会议在美国加州伯克利举行,30位世界著名数学家与o4-mini支持的推理聊天机器人展开对决。该机器人基于推理大型语言模型o4-mini,由OpenAI训练,和谷歌的gemini2.5 Flash一样,具有高度复杂推理能力。
o4-mini突破传统推理局限
o4-mini比早期LLM更轻量级、灵活,经专门数据集和人类强化训练,能深入研究复杂数学问题。EpochAI为追踪其进展,设计300道未公布答案的数学题,传统LLM表现不佳,而o4-mini展现出超越局限的潜力。
FrontierMath项目见证飞跃
2024年9月开展的FrontierMath项目收集不同难度数学问题。到2025年4月,o4-mini能解决约20%问题。进入第四级别测试,数学家设计极具挑战性问题,o4-mini每答错一题,出题者获7500美元奖励。
“调皮天才”震惊学界
会议期间,KenOno提出数论开放性问题,o4-mini在10分钟内给出俏皮且正确的解决方案,其推理过程令Ono震惊。研究人员既惊叹其进步,也担忧结果被过度信任,因其掌握了“威吓证明”技巧。
数学传承引发思考
会议结束,数学家开始思考未来。若人工智能达到“第五层”,数学家角色将巨变,可能转向提出问题与机器人互动。Ono认为在高等教育培养创造力是数学传承关键。
© 版权声明
文章版权归作者所有,未经允许请勿转载。