多图数学推理全新基准MV-MATH推出 近日,中国科学院自动化研究所推出的多图数学推理全新基准MV-MATH,已被CVPR2025录用。这个数据集精心策划,意在全面评估MLLM在多视觉场景中的数学推理能力。经评估,像GPT-4o仅得分32.1,类o1模型QvQ得分29.3,所有模型均未及格。
MV-MATH诞生背景及介绍 多模态大模型在数学推理领域潜力巨大,但现有多模态数学基准测试多局限于单图推理,与现实多图推理应用差距大,MV-MATH因此诞生。MV-MATH包含2009个高质量数学问题,源于K-12教育场景真实问题,结合多个图像与文本,形成多视觉场景。问题分选择题、填空题和多步问答题三种,覆盖11个数学领域,有三个难度级别。
MV-MATH的特点 该数据集有诸多特点。多视觉场景方面,每个问题含2 -8个图片,与文本交织,源于真实场景,能更好评估MLLM推理能力。丰富的标注上,每个样本经至少两名标注者交叉验证,标注涵盖问题、答案等,为模型评估提供详细信息。多样化的数学领域,覆盖从基础算术到高级几何的11个领域,分3个难度等级,全面评估推理能力。图像关联性上,首次引入图像相关性标签,分相互依赖集(MD)和独立集(ID),MD子集中图像相互关联,ID子集中图像相互独立。
多图推理综合评估结果 研究团队用MV-MATH评测24个主流多模态大模型,结果显示即使先进的MLLM在多视觉数学任务中也挑战巨大,与人类能力差距显著。在MV-MATH数据集上,Claude-3.5表现最佳,整体准确率33.9%,远低于人类水平。模型在不同领域表现有差异,处理复杂图像理解和推理领域困难较大。团队还从题目难度、模型提示、图像关联性、图像输入方式四个维度细分析。不同难度级别上,模型表现不同;对于闭源模型,CoT和few-shot不一定有效,开源模型会降点;多数模型处理MD子集任务有挑战;图像序列输入表现优于合并输入,保留图像位置和顺序信息对多图推理很关键。
研究意义随着部分模型爆火,慢思考模型文本推理性能受关注,但视觉大模型慢推理无固定范式。本研究证实MLLM在复杂多视觉感知与图像交叉理解有困难,多图数学推理有改进空间,旨在推动多图数学推理进一步发展。论文链接:https://arxiv.org/abs/2502.20808,主页链接:https://eternal8080.github.io/MV-MATH.github.io/