OmniParser V2.0全新解析工具:UI截图转换与性能提升

AI快讯5天前发布 niko
54 0
AiPPT - 一键生成ppt

微软新推的OmniParserV2.0,作为一款致力于将用户界面(UI)截图转化为结构化格式的解析工具,备受关注。此工具对基于大型语言模型(LLM)的UI代理性能有提升作用,助力用户更好地理解并操作屏幕信息。

该工具的训练数据集独具特色,其中可交互图标检测数据集,是从热门网页精心挑选并自动注释而来,着重突出可点击与可操作区域。还有图标描述数据集,能将每个UI元素和其对应功能相融合。QQ_1739759294065.png

在V2.0版本里,OmniParser实现了重大改进。更新后的数据集规模更大且更纯净,图标的描述与定位效果提升了60%。测试显示,该版本平均延迟大幅降低,在A100设备上约0.6秒/帧,单个4090显卡上为0.8秒/帧。在性能方面,OmniParser在ScreenSpotPro测试中取得39.6的平均准确率。

用户操控Windows11虚拟机,仅需借助OmniTool这一工具。OmniTool与OmniParser配合使用时,用户还能挑选合适的视觉模型。目前,OmniTool支持OpenAI多个版本、DeepSeek(R1)、Qwen(2.5VL)和AnthroPicComputer Use等多种大型语言模型,方便各类操作。

OmniParser的功能在于把非结构化的截图图像转化为结构化元素列表,涵盖可交互区域位置以及图标潜在功能描述。使用该工具的用户需具备基础分析能力与批判性思维,虽然它能提取信息,但最终判断仍由用户自行决定。而且,此工具适用于多种截图类型,包括PC和手机界面,适应性良好。

值得留意的是,OmniParser存在一定局限性。该工具无法检测输入中的有害内容,所以用户提供输入时需谨慎,确保不包含有害信息。即便OmniParser仅将截图转化为文本,却仍可用于构建可操作的图形用户界面代理。开发者利用OmniParser构建和运营代理时,必须遵循安全标准与道德规范。

模型:https://HuggingFace.co/microsoft/OmniParser-v2.0

项目:https://github.com/microsoft/OmniParser/tree/master

© 版权声明
智谱清言 - 国产最强AI模型