VLM²-Bench:探究视觉语言模型的基础视觉线索关联能力

AI快讯3个月前发布 niko
2 0
AiPPT - 一键生成ppt

港科与MIT教授团队研究成果:VLM²-Bench助力视觉语言模型发展

视觉语言模型(VLMs)能力边界不断突破,然而其视觉线索关联能力却未同步提升。在此背景下,团队提出全新视角,推出VLM²-Bench,深入探究模型在“人类级基础视觉线索关联能力”方面的表现。

研究将人类日常生活中重要且易实现、不依赖庞大知识储备的视觉关联能力作为出发点。比如在浏览照片时能找出不同照片中的同一人,拿着球鞋图片去线下门店比对挑选同款等,这种纯粹基于视觉侧的关联能力对人类轻松,但对VLMs却是挑战。

VLM²-Bench设计全面,考察VLMs对通用线索GC、物体线索OC和人物线索PC三大类的基础关联能力,涵盖9个子任务、多图和视频测试数据共3060个测试案例。评测问题形式多样,包括判断题、多选题、数值题、开放题,并设计特定评估方式,同时结合人工验证与自动化过滤,保障数据质量与挑战性。

实验引入蒙题和人类作答两个基准衡量VLMs。结果显示,VLM²-Bench对人类几乎无难度,但多数模型准确率不如乱蒙,与人类表现差距大。尤其在描述视频中出现的人这一任务上,模型易出错。此外,模型在关联人物线索PC上表现优于物体线索OC。在通用线索GC中,模型在匹配线索和跟踪线索子任务上存在短板,过度依赖线索的“连续可见性”,缺乏全局关联能力。

研究还探究了以语言为中心(CoT-)和以视觉为中心(VP-)的prompting方法对模型视觉关联能力的影响。发现语言为中心的推理在视觉线索适合语言表达时有促进作用,抽象线索则会影响表现;视觉为中心的提示在物体线索OC场景下帮助大,在人物线索PC上可能适得其反,且其效果与模型视觉基础能力正相关。

基于研究结果,未来方向包括增强基础视觉能力,提升模型核心视觉能力以增强适应性;平衡基于语言的推理在视觉任务中的作用,明确其适用场景;探索新的训练范式,发展能在视觉线索间进行结构化、组织和推理的模型。

© 版权声明
Trea - 国内首个原生AI IDE