VisualPuzzles：多模态大模型的逻辑谜题挑战与推理能力评估

AI快讯4个月前发布 niko

在多模态大模型不断发展的当下，其推理能力究竟处于何种水平？CMU团队以公考行测逻辑推理题为基础，构建了VisualPuzzles这一全新基准，对众多顶尖大模型发起逻辑谜题挑战。

测试结果令人深思：o1、gemini-2.5Pro、Claude-3.7-Sonnet等顶尖大模型纷纷折戟，最强模型正确率仅57.5%，远低于人类TOP选手。这一结果凸显出在纯逻辑推理领域，模型与人类之间存在着明显的鸿沟。

OpenAI推出的o3和o4-mini，号称实现了「用图像思考」，然而在VisualPuzzles测试面前，表现依旧不尽人意。这表明，即便模型在某些方面取得了进展，但在复杂的逻辑推理任务中，仍面临着巨大的挑战。

VisualPuzzles的独特之处在于，它将多模态推理与领域知识分离，旨在更精准地评估模型的视觉拼图解决能力。该基准包含算法推理、类比推理、演绎推理、归纳推理和空间推理五大类题型，全面覆盖了常见的逻辑与思维模式。

通过对模型在VisualPuzzles上的表现分析，研究揭示了三个重要的「不等式」：知识≠推理；更大的模型=更好的知识≠更好的推理；更多的token≠更好的推理。这意味着，模型在知识储备和推理能力之间，并非简单的对等关系。

在知识密集型基准上，推理与知识的相关性较强，但在VisualPuzzles中，这种相关性显著降低。这说明，VisualPuzzles能够有效剥离领域知识的干扰，更纯粹地考察模型的推理能力。

进一步观察发现，模型规模与在VisualPuzzles上的表现并无明确关联。即便拥有更大的参数规模和更多的预训练知识，模型在纯逻辑思维的推理任务中，也未必能取得理想的成绩。

此外，具有显式「思考」模式的模型，在实际测试中并未展现出明显优势。其输出的长文本回答，往往只是增加了「推理装饰」，而缺乏真正的推理深度。

模型在不同基准测试中的回答策略也存在差异。在MMMU中，模型倾向于基于选项的策略；而在VisualPuzzles中，则更常采用「回答优先」策略，但这并未带来更高的正确率。

深入分析模型的错误原因，发现其对空间信息的理解不稳定，且普遍缺乏深层逻辑推理能力。这两大问题，成为制约模型在逻辑推理任务中表现的关键因素。

尽管模型在不同推理类别之间存在一定的相关性，但这种泛化可能只是基于表面模式，而非真正具备多样化的推理能力。

VisualPuzzles的出现，为多模态大模型的发展指明了方向。未来的研究应更加注重在训练过程中强化推理结构，设计新型网络或推理模块，以提升模型的真正理解与推理能力。

文章版权归作者所有，未经允许请勿转载。