上周五稚晖君微博预告“好东西”,周一智元机器人就带来新成果。这次展示中,机器人能完成多种任务,如端茶倒水、煮咖啡、操作面包机、充当迎宾等。不过,真正的亮点是智元机器人发布的基座大模型GO-1(GenieOperator-1)。
现阶段人形机器人表现不佳,重要原因之一是缺乏高质量数据,且获取数据成本高昂。去年底,智元机器人开源百万真机数据集AgiBotWorld,数据源于其采集工厂,涵盖超100万条轨迹、217个任务和106个场景,但仍无法满足需求及解决泛化能力差的问题。
为此,智元机器人在AgiBot World基础上,提出新的ViLLA(Vision-Language-Latent-Action)架构,这也是GO-1大模型的核心。ViLLA架构由VLM(多模态大模型)和MoE(混合专家)组成,与传统VLA架构不同,它对数据要求没那么苛刻,互联网上的人类视频数据也能用于训练。
基于GO-1大模型的机器人,理论上“看过”视频就能学会相应动作。这很大程度归功于“潜在动作”(LatentActions)。对比VLA架构,ViLLA架构引入隐式规划器(Latent Planner)和动作专家(ActionExpert)。以输入一段人拿起杯子喝水的视频为例,VLM多模态大模型处理视频后,潜在动作模型拆解动作,隐式规划器进一步细化步骤,最后动作专家将步骤转化为机器人能理解的信号执行动作。
ViLLA架构在执行复杂任务时表现更出色,不依赖具体硬件,生成通用动作标记,任务泛化能力更好,更易迁移到其他机器人平台。总之,GO-1让机器人能从互联网人类视频数据学习,具备拆解任务能力,提高复杂任务成功率,泛化能力也变强。若效果属实,对人形机器人行业是好消息。目前不知GO-1是否会开源,而智元机器人次日还有惊喜。