多图数学推理新基准MV-MATH ，众多大模型面临挑战

多图数学推理全新基准MV-MATH推出 近日，中国科学院自动化研究所推出的多图数学推理全新基准MV-MATH，已被CVPR2025录用。这个数据集精心策划，意在全面评估MLLM在多视觉场景中的数学推理能力。经评估，像 GPT-4o仅得分32.1，类o1模型QvQ得分29.3，所有模型均未及格。

MV-MATH诞生背景及介绍 多模态大模型在数学推理领域潜力巨大，但现有多模态数学基准测试多局限于单图推理，与现实多图推理应用差距大，MV-MATH因此诞生。MV-MATH包含2009个高质量数学问题，源于K-12教育场景真实问题，结合多个图像与文本，形成多视觉场景。问题分选择题、填空题和多步问答题三种，覆盖11个数学领域，有三个难度级别。

MV-MATH的特点 该数据集有诸多特点。多视觉场景方面，每个问题含2 -8个图片，与文本交织，源于真实场景，能更好评估MLLM推理能力。丰富的标注上，每个样本经至少两名标注者交叉验证，标注涵盖问题、答案等，为模型评估提供详细信息。多样化的数学领域，覆盖从基础算术到高级几何的11个领域，分3个难度等级，全面评估推理能力。图像关联性上，首次引入图像相关性标签，分相互依赖集（MD）和独立集（ID），MD子集中图像相互关联，ID子集中图像相互独立。

多图推理综合评估结果 研究团队用MV-MATH评测24个主流多模态大模型，结果显示即使先进的MLLM在多视觉数学任务中也挑战巨大，与人类能力差距显著。在MV-MATH数据集上，Claude-3.5表现最佳，整体准确率33.9%，远低于人类水平。模型在不同领域表现有差异，处理复杂图像理解和推理领域困难较大。团队还从题目难度、模型提示、图像关联性、图像输入方式四个维度细分析。不同难度级别上，模型表现不同；对于闭源模型，CoT和few-shot不一定有效，开源模型会降点；多数模型处理MD子集任务有挑战；图像序列输入表现优于合并输入，保留图像位置和顺序信息对多图推理很关键。

研究意义随着部分模型爆火，慢思考模型文本推理性能受关注，但视觉大模型慢推理无固定范式。本研究证实MLLM在复杂多视觉感知与图像交叉理解有困难，多图数学推理有改进空间，旨在推动多图数学推理进一步发展。论文链接：https://arxiv.org/abs/2502.20808，主页链接：https://eternal8080.github.io/MV-MATH.github.io/

# AI快讯

文章版权归作者所有，未经允许请勿转载。