Gemini 2.5 pro领衔！多款大模型挑战2025高考数学题成绩揭晓

AI快讯1年前 (2025)发布 niko

大模型挑战高考数学，成绩差异凸显

高考数学结束后，为更严谨地测评大模型的数学能力，此次选用2025年数学新课标Ⅰ卷，涵盖14道客观题和5道解答题，对Doubao – 1.5 -thINKing – vision – pro、DeepSeek R1、Qwen3 – 235b、hunyuan – t1 – latest、文心X1Turbo、o3以及新增的gemini 2.5 pro进行测评。除o3外，其他模型均调用APi。

客观题：图像题成多模态大模型难题

客观题计分严格按照高考判分原则。不考虑第6题图像题时，Doubao、Qwen3、Gemini 2.5 pro、DeepSeek R1、文心X1Turbo和hunyuan – t1 -latest均取得68分高分，o3因多选题少选丢分。在第9题计算中，o3忽视“正三棱柱”条件致判断错误。而第6题图像题让多模态大模型“全军覆没”，hunyuan- t1 – vision也未能通过测试。相比之下，Doubao和o3能识别坐标位置，Gemini连基本坐标都识别错误。

解答题：大模型失分重灾区

解答题由数学专业人员评判。第15题和第17题，7家大模型均获满分。第16题，仅Qwen3因多余假设求值扣1分。第18题，椭圆方程与几何问题难住众多模型，仅Doubao、DeepSeekR1和Gemini 2.5 Pro得满分。最后一道压轴题，只有Gemini 2.5 pro全对，其他模型或多或少存在证明不严谨、未做后续说明等问题而扣分。

总分排名与能力反思

从总分看，Gemini 2.5 Pro以145分夺冠，Doubao和DeepSeek R1以144分并列第二，o3和Qwen3分列第三、第四，hunyuan- t1 – latest和文心X1Turbo排名靠后。此次测评表明，大模型在数学推理能力上有进步，但在复杂推理、严谨论证、多步骤计算和图文结合理解方面仍需提升。

# AI快讯

文章版权归作者所有，未经允许请勿转载。