OmniParser V2.0全新解析工具：UI截图转换与性能提升

AI快讯1年前 (2025)发布 niko

微软新推的OmniParserV2.0，作为一款致力于将用户界面（UI）截图转化为结构化格式的解析工具，备受关注。此工具对基于大型语言模型(LLM)的UI代理性能有提升作用，助力用户更好地理解并操作屏幕信息。

该工具的训练数据集独具特色，其中可交互图标检测数据集，是从热门网页精心挑选并自动注释而来，着重突出可点击与可操作区域。还有图标描述数据集，能将每个UI元素和其对应功能相融合。

在V2.0版本里，OmniParser实现了重大改进。更新后的数据集规模更大且更纯净，图标的描述与定位效果提升了60%。测试显示，该版本平均延迟大幅降低，在A100设备上约0.6秒/帧，单个4090显卡上为0.8秒/帧。在性能方面，OmniParser在ScreenSpotPro测试中取得39.6的平均准确率。

用户操控Windows11虚拟机，仅需借助OmniTool这一工具。OmniTool与OmniParser配合使用时，用户还能挑选合适的视觉模型。目前，OmniTool支持OpenAI多个版本、DeepSeek（R1）、Qwen(2.5VL)和AnthroPicComputer Use等多种大型语言模型，方便各类操作。

OmniParser的功能在于把非结构化的截图图像转化为结构化元素列表，涵盖可交互区域位置以及图标潜在功能描述。使用该工具的用户需具备基础分析能力与批判性思维，虽然它能提取信息，但最终判断仍由用户自行决定。而且，此工具适用于多种截图类型，包括PC和手机界面，适应性良好。

值得留意的是，OmniParser存在一定局限性。该工具无法检测输入中的有害内容，所以用户提供输入时需谨慎，确保不包含有害信息。即便OmniParser仅将截图转化为文本，却仍可用于构建可操作的图形用户界面代理。开发者利用OmniParser构建和运营代理时，必须遵循安全标准与道德规范。

模型：https://HuggingFace.co/microsoft/OmniParser-v2.0

项目：https://github.com/microsoft/OmniParser/tree/master

# AI快讯

文章版权归作者所有，未经允许请勿转载。