VLM²-Bench：探究视觉语言模型的基础视觉线索关联能力

港科与MIT教授团队研究成果：VLM²-Bench助力视觉语言模型发展

视觉语言模型（VLMs）能力边界不断突破，然而其视觉线索关联能力却未同步提升。在此背景下，团队提出全新视角，推出VLM²-Bench，深入探究模型在“人类级基础视觉线索关联能力”方面的表现。

研究将人类日常生活中重要且易实现、不依赖庞大知识储备的视觉关联能力作为出发点。比如在浏览照片时能找出不同照片中的同一人，拿着球鞋图片去线下门店比对挑选同款等，这种纯粹基于视觉侧的关联能力对人类轻松，但对VLMs却是挑战。

VLM²-Bench设计全面，考察VLMs对通用线索GC、物体线索OC和人物线索PC三大类的基础关联能力，涵盖9个子任务、多图和视频测试数据共3060个测试案例。评测问题形式多样，包括判断题、多选题、数值题、开放题，并设计特定评估方式，同时结合人工验证与自动化过滤，保障数据质量与挑战性。

实验引入蒙题和人类作答两个基准衡量VLMs。结果显示，VLM²-Bench对人类几乎无难度，但多数模型准确率不如乱蒙，与人类表现差距大。尤其在描述视频中出现的人这一任务上，模型易出错。此外，模型在关联人物线索PC上表现优于物体线索OC。在通用线索GC中，模型在匹配线索和跟踪线索子任务上存在短板，过度依赖线索的“连续可见性”，缺乏全局关联能力。

研究还探究了以语言为中心（CoT-）和以视觉为中心（VP-）的prompting方法对模型视觉关联能力的影响。发现语言为中心的推理在视觉线索适合语言表达时有促进作用，抽象线索则会影响表现；视觉为中心的提示在物体线索OC场景下帮助大，在人物线索PC上可能适得其反，且其效果与模型视觉基础能力正相关。

基于研究结果，未来方向包括增强基础视觉能力，提升模型核心视觉能力以增强适应性；平衡基于语言的推理在视觉任务中的作用，明确其适用场景；探索新的训练范式，发展能在视觉线索间进行结构化、组织和推理的模型。

# AI快讯

文章版权归作者所有，未经允许请勿转载。