AI高考测评：数学逼近满分，多模态与文科短板并存

AI快讯1年前 (2025)发布 niko

AI高考测评成绩亮眼，多维度展现能力进步

极客公园今年再度举办AI高考测评，让豆包、DeepSeek、chatgpt等国内外主流大模型参与其中。结果显示，AI的综合能力有显著提升，首次展现出冲击顶尖学府的潜力。

深度思考与多模态能力成关键驱动力

大模型的深度思考能力使模型不再直接输出答案，而是逐步分析问题，在数理考试中表现大幅提升。数学科目中，即便是表现最差的模型也取得128.75分的高分，远超去年。多模态能力也成为拉开差距的关键，主流模型基本具备图片识别能力，但在多模态理解和推理上仍有提升空间。

数学逼近满分，却折戟基础题

AI在数学上进步显著，能从容应对复杂推导和证明。然而，所有大模型都在一道基础的向量加减法选择题上出错，原因在于题目配图视觉信息混乱，影响了AI的精准识别。

作文与英语：短板凸显待突破

语文和英语虽是AI的传统强项，但如今却显不足。作文平均分高于人类，但难有佳作，存在立意雷同、升华套路化的问题。英语成绩进步幅度小，主要受作文分数拖累，因字数控制和缺乏应试智慧而失分。

理综与文综：能力有别差距大

理综三科有一定进步，但整体成绩仍在及格线附近。其中，物理进步最快，化学因复杂图形依赖度高表现不佳，生物则在遗传题上暴露出逻辑推理短板。文科综合依然是AI的高分舒适区，今年地理科目因多模态能力提升平均分激增，但政治和历史进步不明显。

彩蛋测试：AI眼镜与模型审美偏好

在AI眼镜测试中，模型存在幻觉问题、被动交互和结果混乱等情况，目前难以用于考场作弊。让大模型对彼此作文交叉打分的结果显示，模型无明显自我偏爱，与人类判分员审美大方向一致。

高考测评意义渐淡，AI迈向更广阔天地

此次AI高考测评反映出AI正加速逼近人类能力边界，但发展并非线性。随着AI能力的不断提升，高考测试对其区分度可能逐渐降低，AI将迈向更复杂、广阔的现实世界。

文章版权归作者所有，未经允许请勿转载。