近日,港大、密歇根大学、多伦多大学等机构的研究者,对GPT – 4o、Claude 3.7Sonnet等全球顶尖大模型开展了一场物理推理能力的大考验。他们运用3000道物理题,借助全新的PHYX基准测试,全面评估模型在视觉场景中的物理推理能力。
顶尖模型物理题表现不佳
当前,部分先进的多模态模型在奥数问题上已具备与人类相当的水平。然而,在这次物理题实测中,这些顶尖AI模型却纷纷“翻车”。GPT – 4o、Claude3.7- Sonnet和GPT – o4 -mini的准确率分别仅为32.5%、42.2%和45.8%,与人类专家至少75.6%的准确率相比,差距超过30个百分点。这一结果充分表明,当前的AI模型在物理推理方面存在显著不足。
PHYX基准测试的创新之处
PHYX作为首个评估模型在视觉场景中物理推理能力的大规模基准测试,具有三大显著创新。其一,收集了3000个全新问题,这些问题均源自真实物理场景,需要模型结合视觉分析和因果推理来解答;其二,经过专家验证的数据设计,涵盖热力学、电磁学、力学、现代物理学、光学以及波动与声学六个核心物理领域,包含物理模型推理、空间关系推理等六种不同的物理推理类型;其三,采用严格统一的三步评估协议,充分考虑不同模型的指令遵循能力,确保对推理能力进行精确评估。
实测展现模型局限
在具体的物理题实测中,研究者为模型提供高度真实感的图像,以帮助模型将抽象物理原理与现实世界相联系。以GPT -4o为例,在力学、电磁学、热力学等多个领域的题目中,其表现参差不齐。在部分题目上能够得出正确结果,但在许多经典物理题上却频繁出错。如在一些高中力学题、电磁学的电路问题、热力学的文本推理题等方面,GPT- 4o暴露出过于依赖记忆性学科知识、过度依赖数学公式、停留在表层视觉模式匹配而非真正物理理解等三大关键局限。
PHYX测试结果分析
PHYX测试结果显示,多选题会缩小不同模型间的性能差距,而开放式问题更能有效区分模型能力,因其要求模型具备真正的推理能力和精确的答案生成能力。在不同物理领域中,模型表现差异明显。在波动/声学和力学等领域,模型表现相对较好;而在热力学和现代物理等需要复杂视觉感知和多步骤推理的领域,模型表现较差。
模型弱点与改进方向
通过对96个随机抽样错误的详细分析发现,模型存在视觉推理错误(39.6%)、文本推理错误(13.6%)、知识缺失(38.5%)和计算错误(8.3%)等问题。这为未来模型的设计和训练指明了改进方向,如提升多模态推理能力、改进文本推理和语境理解、加强特定领域知识储备以及优化数值计算能力等。