OmniParser V2推动GUI自动化新进展 在图形用户界面(GUI)自动化领域,让智能体理解和交互用户屏幕是关键挑战。OmniParserV2的出现,为解决这一难题带来了新方案,它能将屏幕截图转换为结构化元素,助力大型语言模型(LLM)理解和操作GUI。
突破传统难点的创新方法以往,使用通用LLM作为GUI智能体存在识别可交互图标以及关联操作与屏幕区域的难点。OmniParser通过将UI截图「token化」为LLM可解释的结构化元素,有效弥合了差距,让LLM基于已解析的可交互元素进行动作预测。
OmniParser方法详述
- 可交互区域检测 :从UI屏幕识别可交互区域是关键一步。研究人员采用Set-of-Marks,构建独特数据集,标注可交互图标边界框,数据源于Bing Index热门网址。
- 融合功能性icon semantics :为解决GPT – 4o预测的局限性,研究人员在提示中加入功能局部语义信息,通过构建图标描述数据集,提升模型对图标语义的理解。
构建专用数据集奠定基础 OmniParser的开发基于两个核心数据集:可交互图标检测数据集,来自BingIndex热门网页并自动化标注;图标描述数据集,为UI元素关联功能描述,收集多个应用商店图标数据作为训练集。
实验成果显著 OmniParser V1在多个基准测试中显著提升了GPT – 4V的表现。而OmniParserV2更将屏幕理解能力提升到新高度,检测准确率更高、推理速度更快,在ScreenSpot Pro基准测试中有突出表现。
配套工具与多模型支持为加快实验速度,研究人员创建OmniTool,这是集成重要工具的Docker化Windows系统,支持OmniParser与多种先进LLM结合,实现多种功能。
风险与缓解措施研究人员通过使用负责任AI数据训练图标描述模型,以及鼓励用户人工审核等措施降低风险,同时对OmniTool进行威胁模型分析并提供安全指南。
© 版权声明
文章版权归作者所有,未经允许请勿转载。