2025高考数学：6家顶流大模型大比拼

AI快讯1年前 (2025)发布 niko

2025年高考，考生们上午经受抽象作文的考验，下午又被数学打击。考试结束，「高考数学」等词条迅速登上微博热搜，考生们在评论区纷纷抱怨。与此同时，生成式AI走红后，大模型挑战高考成了每年的固定节目，今年我们用新鲜出炉的高考数学题对多家大模型进行了测试。

此次测试采用2025年数学新课标Ⅰ卷中的14道客观题，满分73分，包括8道单选题、3道多选题、3道填空题。为保证公平，题目截图直接投喂给大模型，不做引导，不开启联网搜索，所有模型只有一次答题机会。计分方法依照高考判分原则。参赛选手有字节的豆包、深度求索的DeepSeek、阿里的通义、腾讯的元宝（T1）、百度的文心X1Turbo，以及OpenAI的o3。

测试结果显示，豆包和元宝以68分并列第一，二者都在第6道单选题失误；DeepSeek得63分，错了2道单选题；通义获62分，在1道单选和1道多选上出错；文心X1Turbo仅得51分，正确率70%；o3表现最差，只拿到34分，正确率47%。

高考数学是真正的AI照妖镜。相比高考作文这个语言生成任务，高考数学需严密推导，过程中一步出错就可能导致答案错误，且题型多变、设问刁钻，挑战模型的泛化能力和思维深度。

在单选题中，豆包、通义、元宝和文心X1Turbo均获35分，DeepSeek得30分，o3错了一半。o3在第2题就出错，而DeepSeek存在图片识别问题，在第6题表现不佳。通义虽答对第6题，但计算方法错误。

多选题共3道，计18分。豆包、DeepSeek和元宝全部满分。通义答题速度快，但步骤简略，容易失误。文心X1Turbo错了2道，还出现未响应情况。o3不适应多选套路，一道题都未全对。

填空题方面，豆包、DeepSeek、通义和元宝满分。文心X1 Turbo思路正确，但最后画蛇添足，导致一分未得。

今年大模型的数学推理能力有明显进步。得分上，除o3外，其他5款模型均突破及格线，豆包和元宝正确率达93%。同时，大模型增加了反思能力，遇到问题会推倒重来。此外，推理步骤更加完善，除通义外，其他模型能展示完整推理链路。

不过，大模型也存在一些问题。常见的有计算细节错误，对公式、图形与几何直觉的处理能力不足，对题目条件敏感度不够等。随着技术发展，相信大模型能弥补这些不足。最后，预祝考生们金榜题名。

欲知6大模型的具体答题截图，请移步链接：https://jiqizhixin.feishu.cn/docx/NNBVdmzpmobq8nxNwylcqZNDnEb

# AI快讯

文章版权归作者所有，未经允许请勿转载。