OmniParser V2助力GUI自动化，提升屏幕理解与操作能力

OmniParser V2推动GUI自动化新进展 在图形用户界面（GUI）自动化领域，让智能体理解和交互用户屏幕是关键挑战。OmniParserV2的出现，为解决这一难题带来了新方案，它能将屏幕截图转换为结构化元素，助力大型语言模型（LLM）理解和操作GUI。

突破传统难点的创新方法以往，使用通用LLM作为GUI智能体存在识别可交互图标以及关联操作与屏幕区域的难点。OmniParser通过将UI截图「token化」为LLM可解释的结构化元素，有效弥合了差距，让LLM基于已解析的可交互元素进行动作预测。

OmniParser方法详述

可交互区域检测 ：从UI屏幕识别可交互区域是关键一步。研究人员采用Set-of-Marks，构建独特数据集，标注可交互图标边界框，数据源于Bing Index热门网址。
融合功能性icon semantics ：为解决GPT – 4o预测的局限性，研究人员在提示中加入功能局部语义信息，通过构建图标描述数据集，提升模型对图标语义的理解。

构建专用数据集奠定基础 OmniParser的开发基于两个核心数据集：可交互图标检测数据集，来自BingIndex热门网页并自动化标注；图标描述数据集，为UI元素关联功能描述，收集多个应用商店图标数据作为训练集。

实验成果显著 OmniParser V1在多个基准测试中显著提升了GPT – 4V的表现。而OmniParserV2更将屏幕理解能力提升到新高度，检测准确率更高、推理速度更快，在ScreenSpot Pro基准测试中有突出表现。

配套工具与多模型支持为加快实验速度，研究人员创建OmniTool，这是集成重要工具的Docker化Windows系统，支持OmniParser与多种先进LLM结合，实现多种功能。

风险与缓解措施研究人员通过使用负责任AI数据训练图标描述模型，以及鼓励用户人工审核等措施降低风险，同时对OmniTool进行威胁模型分析并提供安全指南。

文章版权归作者所有，未经允许请勿转载。