视觉语言模型地理信息识别能力与偏差研究

AI快讯3周前发布 niko
1 0
AiPPT - 一键生成ppt

视觉语言模型(VLMs)在地理信息识别领域展现出令人瞩目的能力,然而其背后的偏差问题也逐渐浮出水面。 沃顿商学院教授EthanMollick关注到这一现象,相关研究揭示了VLMs在该领域的复杂表现。

在测试中,研究人员让大学生在无搜索引擎和AI模型辅助下猜测街景图像对应的地理位置,结果显示人类表现远逊于视觉语言模型。其中,gemini1.5-Pro表现突出,在大洲、国家和城市层面预测的正确率分别比人类高出59.6%、74.2%和62.6%。

为深入评估VLMs在地理信息识别中的偏差,研究团队开发了FAIRLOCATOR基准测试。该测试包含来自43个国家111个城市的1200张图像,附带详细地理信息,并具备自动评估框架。研究将图像从深度和广度两方面分析,使用GPT-4o、Gemini-1.5-Pro、LLaMA-3.2-11B以及LLaVA-v1.6-Vicuna-13B四种模型展开研究。

研究发现,当前VLMs存在三大偏差:一是偏向知名城市,如Gemini-1.5-Pro识别巴西图像时常预测为圣保罗;二是跨区域准确率差异,识别发达地区图像准确率平均为48.8%,欠发达地区降至41.7%;三是与发展水平的虚假关联,常将城市或现代场景与发达国家联系,乡村景观误归为发展中国家。

为指导VLMs完成地理定位任务,研究借鉴GeoGuessr游戏玩家策略,给出特定提示并规范输出格式。实验过程中,通过深度评估和广度评估,进一步分析模型在不同区域和条件下的表现。深度评估选取每个洲人口最多的部分国家及城市进行测试,结果显示GPT-4o表现出色;广度评估选取60个城市,涵盖不同经济、人口和文化背景,结果表明Gemini-1.5-Pro和GPT-4o表现相当。

此外,研究还对数据泄露、虚假相关性、城市景观风格以及思维链(CoT)的作用进行了探究。在数据泄露研究中,发现训练数据对准确率有一定影响;虚假相关性研究表明,VLMs不仅依赖明显线索,还利用细微特征;城市景观风格研究揭示了模型存在区域偏见;而思维链评估显示,其推理与最终答案并非始终一致。

论文链接:https://arxiv.org/abs/2502.11163

项目地址:https://github.com/uscnlp-lime/FairLocator

© 版权声明
Trea - 国内首个原生AI IDE