2025高考数学卷测评：DeepSeek – R1与腾讯混元T1夺冠，Grok 3失利

AI快讯1年前 (2025)发布 niko

在今年高考结束后，关于数学科目难度的讨论持续不断。《每日经济新闻》记者挑选了2025年全国新课标数学I卷，对DeepSeek -R1、腾讯混元T1、OpenAI的o3、谷歌的gemini 2.5 Pro和xAI的Grok 3等十款AI推理大模型开展测评，以评估其数学能力。

测评标准方面，因部分模型拒绝识别试题图片，为保证公平，移除了需分析图形和图表的题目，形成总分117分的标准化试卷。不过，对于无此限制的模型，仍用150分的完整试卷测试。在扣分标准上，选择题和填空题遵循高考评卷标准，解答题只看结果。且每款模型仅测试一次，得分反映单次测试情况。

测评结果令人关注。在117分试卷测试中，DeepSeek -R1和腾讯混元T1表现卓越，以零错误的完美成绩并列榜首，这显示出它们在代数计算和函数题等方面能力稳定且强大。讯飞星火X1以112分紧随其后，仅因一道填空题自我怀疑答错而失分。此外，Gemini2.5 Pro、o3、阿里千问Qwen3和豆包深度思考模式得分也超100分，其中阿里千问Qwen3和豆包深度思考模式在解答题上获满分。

然而，被马斯克称为“地表最强AI”的Grok3此次测评却遭遇“滑铁卢”，仅获91分，排名倒数第三。其失分关键在于无法正确理解多选题，即便有提示，也只给出一个答案。排名倒数第二的智谱清言推理模式，常因最后一步自我怀疑而丢分；Kimik1.5则在压轴大题上严重失分。

综合来看，AI推理大模型在处理有固定步骤和严密逻辑的数学问题时能力较强，但在涉及抽象和创新思维的题目上存在一定局限性。

# AI快讯

文章版权归作者所有，未经允许请勿转载。