视觉语言模型地理信息识别能力与偏差研究

AI快讯1年前 (2025)发布 niko

视觉语言模型（VLMs）在地理信息识别领域展现出令人瞩目的能力，然而其背后的偏差问题也逐渐浮出水面。 沃顿商学院教授EthanMollick关注到这一现象，相关研究揭示了VLMs在该领域的复杂表现。

在测试中，研究人员让大学生在无搜索引擎和AI模型辅助下猜测街景图像对应的地理位置，结果显示人类表现远逊于视觉语言模型。其中，gemini1.5-Pro表现突出，在大洲、国家和城市层面预测的正确率分别比人类高出59.6%、74.2%和62.6%。

为深入评估VLMs在地理信息识别中的偏差，研究团队开发了FAIRLOCATOR基准测试。该测试包含来自43个国家111个城市的1200张图像，附带详细地理信息，并具备自动评估框架。研究将图像从深度和广度两方面分析，使用 GPT-4o、Gemini-1.5-Pro、LLaMA-3.2-11B以及LLaVA-v1.6-Vicuna-13B四种模型展开研究。

研究发现，当前VLMs存在三大偏差：一是偏向知名城市，如Gemini-1.5-Pro识别巴西图像时常预测为圣保罗；二是跨区域准确率差异，识别发达地区图像准确率平均为48.8%，欠发达地区降至41.7%；三是与发展水平的虚假关联，常将城市或现代场景与发达国家联系，乡村景观误归为发展中国家。

为指导VLMs完成地理定位任务，研究借鉴GeoGuessr游戏玩家策略，给出特定提示并规范输出格式。实验过程中，通过深度评估和广度评估，进一步分析模型在不同区域和条件下的表现。深度评估选取每个洲人口最多的部分国家及城市进行测试，结果显示GPT-4o表现出色；广度评估选取60个城市，涵盖不同经济、人口和文化背景，结果表明Gemini-1.5-Pro和GPT-4o表现相当。

此外，研究还对数据泄露、虚假相关性、城市景观风格以及思维链（CoT）的作用进行了探究。在数据泄露研究中，发现训练数据对准确率有一定影响；虚假相关性研究表明，VLMs不仅依赖明显线索，还利用细微特征；城市景观风格研究揭示了模型存在区域偏见；而思维链评估显示，其推理与最终答案并非始终一致。

论文链接：https://arxiv.org/abs/2502.11163

项目地址：https://github.com/uscnlp-lime/FairLocator

# AI快讯

文章版权归作者所有，未经允许请勿转载。