2025高考数学卷测评:DeepSeek – R1与腾讯混元T1夺冠,Grok 3失利

AI快讯1周前发布 niko
7 0
AiPPT - 一键生成ppt

在今年高考结束后,关于数学科目难度的讨论持续不断。《每日经济新闻》记者挑选了2025年全国新课标数学I卷,对DeepSeek -R1、腾讯混元T1、OpenAI的o3、谷歌的gemini 2.5 Pro和xAI的Grok 3等十款AI推理大模型开展测评,以评估其数学能力。

测评标准方面,因部分模型拒绝识别试题图片,为保证公平,移除了需分析图形和图表的题目,形成总分117分的标准化试卷。不过,对于无此限制的模型,仍用150分的完整试卷测试。在扣分标准上,选择题和填空题遵循高考评卷标准,解答题只看结果。且每款模型仅测试一次,得分反映单次测试情况。

测评结果令人关注。在117分试卷测试中,DeepSeek -R1和腾讯混元T1表现卓越,以零错误的完美成绩并列榜首,这显示出它们在代数计算和函数题等方面能力稳定且强大。讯飞星火X1以112分紧随其后,仅因一道填空题自我怀疑答错而失分。此外,Gemini2.5 Pro、o3、阿里千问Qwen3和豆包深度思考模式得分也超100分,其中阿里千问Qwen3和豆包深度思考模式在解答题上获满分。

然而,被马斯克称为“地表最强AI”的Grok3此次测评却遭遇“滑铁卢”,仅获91分,排名倒数第三。其失分关键在于无法正确理解多选题,即便有提示,也只给出一个答案。排名倒数第二的智谱清言推理模式,常因最后一步自我怀疑而丢分;Kimik1.5则在压轴大题上严重失分。

综合来看,AI推理大模型在处理有固定步骤和严密逻辑的数学问题时能力较强,但在涉及抽象和创新思维的题目上存在一定局限性。

© 版权声明
Trea - 国内首个原生AI IDE