去年11月,荣耀在新机Magic 7 Pro发布之际策划了一场令人瞩目的事件营销。时任荣耀CEO赵明指挥AI AgentYOYO在美团下单约2000杯瑞幸饮料,致使深圳发布会场地周边瑞幸门店订单爆棚,咖啡师与骑手忙得不可开交。不过,此次营销让公众一定程度上忽略了荣耀意在展示的核心技术——「基于GUI的个人AI智能体」。
如今,AI Agent功能屡见不鲜,而其关键在于「GUI」。GUI即Graphical UserInterface图形用户界面,基于此的YOYO不再依赖传统APi接口,拥有虚拟「手」,直接在前台代替用户进行图形界面操作,实时展现在用户眼前。
需要说明的是,Magic 7Pro市售机型与发布会演示存在差异。据财联社消息,现场演示测试机权限更高,能自动免密支付与循环点单,才实现大量下单。目前市售机型需用户明确点单细节,支付环节也需用户接管确认。但这一细节无损该技术的意义,「基于GUI」是独特且具试验性的AIAgent实现路径。
荣耀YOYO以多模态模型为核心,GUI交互本质是语言与视觉的理解,涵盖自然语言处理、屏幕状态感知、拟人化操作与循环操作等环节。关于GUI操作的实现方式,荣耀未明确透露,推测其可能获得手机无障碍功能或类似底层权限来控制屏幕点击事件。与以往虚拟助理通过API调用及物联网协议控制软件和硬件不同,谷歌在三星机型上激活的AIAgent功能也是通过API或类似方式,而荣耀的GUI模拟前台操作与之形成鲜明对比,可规避API调用的商业博弈与数据成本,更易扩充应用,实现规模化并提升用户体验。
成本是API调用面临的关键问题,包括云服务费用与数据价值成本,且API使用还涉及隐性商业竞争要素。而基于GUI的方案下,荣耀无需支付API费用,也不存在数据归属与隐私安全问题,这种「模仿人类」点击屏幕的交互方式简单有效。
荣耀基于GUI的AIAgent技术路径,让人联想到谷歌2018年推出的AI电话助手Duplex。当时Duplex用顶尖技术模拟人类打电话订餐,从数字到模拟的交互方式令人耳目一新。如今荣耀推进的基于GUI的AIAgent同样是从数字到模拟的实现方式,为用户和第三方应用带来诸多便利,降低了用户学习成本与第三方开发成本,为AI Agent落地提供新路径。
当下用户需求场景中有不同类型的AI Agent,高智商型备受关注,但基于GUI的AIAgent同样重要。它使用门槛低,能完成各类日常事务,适应性强。从电影《云端情人》对自然语言对话成为主流的设想,到AIPin等产品的发展,都引发对人机交互方式的思考。尽管触屏时代交互门槛降低,大模型与UI结合重新定义人机交互,GUI在当下仍是主流,但大模型成为新操作系统的未来正逐渐清晰。