为防止高考生利用AI作弊,2025年高考期间,腾讯混元、通义千问、Kimi、豆包等国内知名AI大模型的图片识别问答功能都暂停了服务。对此,小雷提出质疑,此前其测试发现多数AI大模型做高考题表现不佳,暂停该功能或许高估了它们的能力。
截至截稿,2025年高考全国一卷公布了语文、英语和数学三套试卷。语文题目曝光后,多家媒体用AI大模型撰写作文,但评测多未给出点评,文章质量由读者自行评判。小雷决定从有标准答案的数学科目入手,测试DeepSeek、豆包、讯飞星火、文心一言、Kimi、通义千问这六款AI大模型。
测试中,所有AI大模型启用联网搜索并打开深度思考功能,选取了一道单选题、一道多选题、一道填空题和一道简答题。第一道单选题较简单,六款模型全部答对并给出详细推理过程,均得5分。这表明它们有被高考生用于作弊的可能,暂停图片识别问答功能并非蹭热度之举。
第二道多选题难度较高,仅豆包两分钟内算出正确答案,讯飞星火和通义千问耗时稍长,DeepSeek耗时近10分钟。虽所有模型都答对,但综合推理时长,豆包、讯飞星火、通义千问表现更佳。
第三道填空题难度有所下降,讯飞星火、文心一言、Kimi、通义千问、DeepSeek迅速算出正确答案,文心一言几乎秒算。豆包虽算出答案,但输出时排除了-2,仅得2分。此外,DeepSeek服务器频繁繁忙,借助腾讯元宝App测试效果更好。
第四道简答题复杂度远超前三道,是检验模型能力的关键挑战。豆包、讯飞星火、Kimi、文心一言、DeepSeek表现出色,全部答对;通义千问第一小题答对,第二小题答错,仅得7分。
最终测试得分:DeepSeek、讯飞星火、Kimi、文心一言均为33分,豆包30分,通义千问23分。与去年相比,AI大模型在处理高考数学题上有明显进步,曾经困扰它们的多选题也不再是难题。
苹果曾质疑AI推理模型,认为其是“假思考”。但AI研究者认为是苹果限制输出token导致。如今AI大模型的进步有目共睹,其数学题解答能力提升,最大受益者可能是学生群体。学习机厂商和教辅平台可与头部AI企业合作,增强产品AI答题能力,强化AI教育硬件业务。