AI高考测评:数学逼近满分,多模态与文科短板并存

AI快讯6小时前发布 niko
3 0
AiPPT - 一键生成ppt

AI高考测评成绩亮眼,多维度展现能力进步

极客公园今年再度举办AI高考测评,让豆包DeepSeekchatgpt等国内外主流大模型参与其中。结果显示,AI的综合能力有显著提升,首次展现出冲击顶尖学府的潜力。

深度思考与多模态能力成关键驱动力

大模型的深度思考能力使模型不再直接输出答案,而是逐步分析问题,在数理考试中表现大幅提升。数学科目中,即便是表现最差的模型也取得128.75分的高分,远超去年。多模态能力也成为拉开差距的关键,主流模型基本具备图片识别能力,但在多模态理解和推理上仍有提升空间。

数学逼近满分,却折戟基础题

AI在数学上进步显著,能从容应对复杂推导和证明。然而,所有大模型都在一道基础的向量加减法选择题上出错,原因在于题目配图视觉信息混乱,影响了AI的精准识别。

作文与英语:短板凸显待突破

语文和英语虽是AI的传统强项,但如今却显不足。作文平均分高于人类,但难有佳作,存在立意雷同、升华套路化的问题。英语成绩进步幅度小,主要受作文分数拖累,因字数控制和缺乏应试智慧而失分。

理综与文综:能力有别差距大

理综三科有一定进步,但整体成绩仍在及格线附近。其中,物理进步最快,化学因复杂图形依赖度高表现不佳,生物则在遗传题上暴露出逻辑推理短板。文科综合依然是AI的高分舒适区,今年地理科目因多模态能力提升平均分激增,但政治和历史进步不明显。

彩蛋测试:AI眼镜与模型审美偏好

在AI眼镜测试中,模型存在幻觉问题、被动交互和结果混乱等情况,目前难以用于考场作弊。让大模型对彼此作文交叉打分的结果显示,模型无明显自我偏爱,与人类判分员审美大方向一致。

高考测评意义渐淡,AI迈向更广阔天地

此次AI高考测评反映出AI正加速逼近人类能力边界,但发展并非线性。随着AI能力的不断提升,高考测试对其区分度可能逐渐降低,AI将迈向更复杂、广阔的现实世界。

© 版权声明
Trea - 国内首个原生AI IDE