2025高考数学:6家顶流大模型大比拼

AI快讯23秒前发布 niko
0 0
AiPPT - 一键生成ppt

2025年高考,考生们上午经受抽象作文的考验,下午又被数学打击。考试结束,「高考数学」等词条迅速登上微博热搜,考生们在评论区纷纷抱怨。与此同时,生成式AI走红后,大模型挑战高考成了每年的固定节目,今年我们用新鲜出炉的高考数学题对多家大模型进行了测试。

此次测试采用2025年数学新课标Ⅰ卷中的14道客观题,满分73分,包括8道单选题、3道多选题、3道填空题。为保证公平,题目截图直接投喂给大模型,不做引导,不开启联网搜索,所有模型只有一次答题机会。计分方法依照高考判分原则。参赛选手有字节的豆包、深度求索的DeepSeek、阿里的通义、腾讯的元宝(T1)、百度的文心X1Turbo,以及OpenAI的o3。

测试结果显示,豆包和元宝以68分并列第一,二者都在第6道单选题失误;DeepSeek得63分,错了2道单选题;通义获62分,在1道单选和1道多选上出错;文心X1Turbo仅得51分,正确率70%;o3表现最差,只拿到34分,正确率47%。

高考数学是真正的AI照妖镜。相比高考作文这个语言生成任务,高考数学需严密推导,过程中一步出错就可能导致答案错误,且题型多变、设问刁钻,挑战模型的泛化能力和思维深度。

在单选题中,豆包、通义、元宝和文心X1Turbo均获35分,DeepSeek得30分,o3错了一半。o3在第2题就出错,而DeepSeek存在图片识别问题,在第6题表现不佳。通义虽答对第6题,但计算方法错误。

多选题共3道,计18分。豆包、DeepSeek和元宝全部满分。通义答题速度快,但步骤简略,容易失误。文心X1Turbo错了2道,还出现未响应情况。o3不适应多选套路,一道题都未全对。

填空题方面,豆包、DeepSeek、通义和元宝满分。文心X1 Turbo思路正确,但最后画蛇添足,导致一分未得。

今年大模型的数学推理能力有明显进步。得分上,除o3外,其他5款模型均突破及格线,豆包和元宝正确率达93%。同时,大模型增加了反思能力,遇到问题会推倒重来。此外,推理步骤更加完善,除通义外,其他模型能展示完整推理链路。

不过,大模型也存在一些问题。常见的有计算细节错误,对公式、图形与几何直觉的处理能力不足,对题目条件敏感度不够等。随着技术发展,相信大模型能弥补这些不足。最后,预祝考生们金榜题名。

欲知6大模型的具体答题截图,请移步链接:https://jiqizhixin.feishu.cn/docx/NNBVdmzpmobq8nxNwylcqZNDnEb

© 版权声明
Trea - 国内首个原生AI IDE