VisualPuzzles:多模态大模型的逻辑谜题挑战与推理能力评估

AI快讯4周前发布 niko
11 0
AiPPT - 一键生成ppt

在多模态大模型不断发展的当下,其推理能力究竟处于何种水平?CMU团队以公考行测逻辑推理题为基础,构建了VisualPuzzles这一全新基准,对众多顶尖大模型发起逻辑谜题挑战。

测试结果令人深思:o1、gemini-2.5Pro、Claude-3.7-Sonnet等顶尖大模型纷纷折戟,最强模型正确率仅57.5%,远低于人类TOP选手。这一结果凸显出在纯逻辑推理领域,模型与人类之间存在着明显的鸿沟。

OpenAI推出的o3和o4-mini,号称实现了「用图像思考」,然而在VisualPuzzles测试面前,表现依旧不尽人意。这表明,即便模型在某些方面取得了进展,但在复杂的逻辑推理任务中,仍面临着巨大的挑战。

VisualPuzzles的独特之处在于,它将多模态推理与领域知识分离,旨在更精准地评估模型的视觉拼图解决能力。该基准包含算法推理、类比推理、演绎推理、归纳推理和空间推理五大类题型,全面覆盖了常见的逻辑与思维模式。

通过对模型在VisualPuzzles上的表现分析,研究揭示了三个重要的「不等式」:知识≠推理;更大的模型=更好的知识≠更好的推理;更多的token≠更好的推理。这意味着,模型在知识储备和推理能力之间,并非简单的对等关系。

在知识密集型基准上,推理与知识的相关性较强,但在VisualPuzzles中,这种相关性显著降低。这说明,VisualPuzzles能够有效剥离领域知识的干扰,更纯粹地考察模型的推理能力。

进一步观察发现,模型规模与在VisualPuzzles上的表现并无明确关联。即便拥有更大的参数规模和更多的预训练知识,模型在纯逻辑思维的推理任务中,也未必能取得理想的成绩。

此外,具有显式「思考」模式的模型,在实际测试中并未展现出明显优势。其输出的长文本回答,往往只是增加了「推理装饰」,而缺乏真正的推理深度。

模型在不同基准测试中的回答策略也存在差异。在MMMU中,模型倾向于基于选项的策略;而在VisualPuzzles中,则更常采用「回答优先」策略,但这并未带来更高的正确率。

深入分析模型的错误原因,发现其对空间信息的理解不稳定,且普遍缺乏深层逻辑推理能力。这两大问题,成为制约模型在逻辑推理任务中表现的关键因素。

尽管模型在不同推理类别之间存在一定的相关性,但这种泛化可能只是基于表面模式,而非真正具备多样化的推理能力。

VisualPuzzles的出现,为多模态大模型的发展指明了方向。未来的研究应更加注重在训练过程中强化推理结构,设计新型网络或推理模块,以提升模型的真正理解与推理能力。

© 版权声明
Trea - 国内首个原生AI IDE