高考期间AI防作弊，六款大模型数学测试成绩大揭秘

AI快讯1年前 (2025)发布 niko

为防止高考生利用AI作弊，2025年高考期间，腾讯混元、通义千问、Kimi、豆包等国内知名AI大模型的图片识别问答功能都暂停了服务。对此，小雷提出质疑，此前其测试发现多数AI大模型做高考题表现不佳，暂停该功能或许高估了它们的能力。

截至截稿，2025年高考全国一卷公布了语文、英语和数学三套试卷。语文题目曝光后，多家媒体用AI大模型撰写作文，但评测多未给出点评，文章质量由读者自行评判。小雷决定从有标准答案的数学科目入手，测试DeepSeek、豆包、讯飞星火、文心一言、Kimi、通义千问这六款AI大模型。

测试中，所有AI大模型启用联网搜索并打开深度思考功能，选取了一道单选题、一道多选题、一道填空题和一道简答题。第一道单选题较简单，六款模型全部答对并给出详细推理过程，均得5分。这表明它们有被高考生用于作弊的可能，暂停图片识别问答功能并非蹭热度之举。

第二道多选题难度较高，仅豆包两分钟内算出正确答案，讯飞星火和通义千问耗时稍长，DeepSeek耗时近10分钟。虽所有模型都答对，但综合推理时长，豆包、讯飞星火、通义千问表现更佳。

第三道填空题难度有所下降，讯飞星火、文心一言、Kimi、通义千问、DeepSeek迅速算出正确答案，文心一言几乎秒算。豆包虽算出答案，但输出时排除了-2，仅得2分。此外，DeepSeek服务器频繁繁忙，借助腾讯元宝App测试效果更好。

第四道简答题复杂度远超前三道，是检验模型能力的关键挑战。豆包、讯飞星火、Kimi、文心一言、DeepSeek表现出色，全部答对；通义千问第一小题答对，第二小题答错，仅得7分。

最终测试得分：DeepSeek、讯飞星火、Kimi、文心一言均为33分，豆包30分，通义千问23分。与去年相比，AI大模型在处理高考数学题上有明显进步，曾经困扰它们的多选题也不再是难题。

苹果曾质疑AI推理模型，认为其是“假思考”。但AI研究者认为是苹果限制输出token导致。如今AI大模型的进步有目共睹，其数学题解答能力提升，最大受益者可能是学生群体。学习机厂商和教辅平台可与头部AI企业合作，增强产品AI答题能力，强化AI教育硬件业务。

文章版权归作者所有，未经允许请勿转载。