大模型挑战高考数学,成绩差异凸显
高考数学结束后,为更严谨地测评大模型的数学能力,此次选用2025年数学新课标Ⅰ卷,涵盖14道客观题和5道解答题,对Doubao – 1.5 -thINKing – vision – pro、DeepSeek R1、Qwen3 – 235b、hunyuan – t1 – latest、文心X1Turbo、o3以及新增的gemini 2.5 pro进行测评。除o3外,其他模型均调用APi。
客观题:图像题成多模态大模型难题
客观题计分严格按照高考判分原则。不考虑第6题图像题时,Doubao、Qwen3、Gemini 2.5 pro、DeepSeek R1、文心X1Turbo和hunyuan – t1 -latest均取得68分高分,o3因多选题少选丢分。在第9题计算中,o3忽视“正三棱柱”条件致判断错误。而第6题图像题让多模态大模型“全军覆没”,hunyuan- t1 – vision也未能通过测试。相比之下,Doubao和o3能识别坐标位置,Gemini连基本坐标都识别错误。
解答题:大模型失分重灾区
解答题由数学专业人员评判。第15题和第17题,7家大模型均获满分。第16题,仅Qwen3因多余假设求值扣1分。第18题,椭圆方程与几何问题难住众多模型,仅Doubao、DeepSeekR1和Gemini 2.5 Pro得满分。最后一道压轴题,只有Gemini 2.5 pro全对,其他模型或多或少存在证明不严谨、未做后续说明等问题而扣分。
总分排名与能力反思
从总分看,Gemini 2.5 Pro以145分夺冠,Doubao和DeepSeek R1以144分并列第二,o3和Qwen3分列第三、第四,hunyuan- t1 – latest和文心X1Turbo排名靠后。此次测评表明,大模型在数学推理能力上有进步,但在复杂推理、严谨论证、多步骤计算和图文结合理解方面仍需提升。