智元机器人发布GO-1大模型，ViLLA架构助力解决人形机器人难题

上周五稚晖君微博预告“好东西”，周一智元机器人就带来新成果。这次展示中，机器人能完成多种任务，如端茶倒水、煮咖啡、操作面包机、充当迎宾等。不过，真正的亮点是智元机器人发布的基座大模型GO-1（GenieOperator-1）。

现阶段人形机器人表现不佳，重要原因之一是缺乏高质量数据，且获取数据成本高昂。去年底，智元机器人开源百万真机数据集AgiBotWorld，数据源于其采集工厂，涵盖超100万条轨迹、217个任务和106个场景，但仍无法满足需求及解决泛化能力差的问题。

为此，智元机器人在AgiBot World基础上，提出新的ViLLA（Vision-Language-Latent-Action）架构，这也是GO-1大模型的核心。ViLLA架构由VLM（多模态大模型）和MoE（混合专家）组成，与传统VLA架构不同，它对数据要求没那么苛刻，互联网上的人类视频数据也能用于训练。

基于GO-1大模型的机器人，理论上“看过”视频就能学会相应动作。这很大程度归功于“潜在动作”（LatentActions）。对比VLA架构，ViLLA架构引入隐式规划器（Latent Planner）和动作专家（ActionExpert）。以输入一段人拿起杯子喝水的视频为例，VLM多模态大模型处理视频后，潜在动作模型拆解动作，隐式规划器进一步细化步骤，最后动作专家将步骤转化为机器人能理解的信号执行动作。

ViLLA架构在执行复杂任务时表现更出色，不依赖具体硬件，生成通用动作标记，任务泛化能力更好，更易迁移到其他机器人平台。总之，GO-1让机器人能从互联网人类视频数据学习，具备拆解任务能力，提高复杂任务成功率，泛化能力也变强。若效果属实，对人形机器人行业是好消息。目前不知GO-1是否会开源，而智元机器人次日还有惊喜。

# AI快讯

文章版权归作者所有，未经允许请勿转载。