全球首个ViLLA架构具身模型GO-1开源智源机器人降低具身智能开发门槛

具身智能技术要让机器人精准理解人类意图并执行动作，一直以来面临多模态信息整合难、动作生成精度低等痛点。9月23日，智源机器人正式对外开源全球首个采用ViLLA（Vision-Language-Latent-Action）架构的通用具身基础大模型GO-1，旨在降低具身智能开发门槛，让更多开发者参与这一领域。

GO-1的核心是全球首创的ViLLA架构——相较于传统VLA（Vision-Language-Action）架构仅连接视觉、语言与动作，ViLLA通过引入**隐式动作令牌**这一关键设计，实现了图像、文本指令与机器人动作的更紧密关联。该架构分为三层：底层是基于InternVL-2B构建的VLM多模态理解层，支持处理视觉、力觉、语言等多源信息；中间层为Latent Planner隐式规划器，可对“整理桌面”“组装零件”等复杂任务进行高层语义理解；顶层是Action Expert动作专家模块，通过扩散模型生成连续高精度动作序列，确保机器人完成拧螺丝、抓取易碎品等精细操作。

为解决开发者“从数据到部署”的全流程需求，智源机器人同步推出Genie Studio开发平台。该平台整合了GO-1模型，提供**数据采集、模型训练、仿真验证**等全链路工具，还配套视频训练方案与统一训练框架，能将具身智能应用的开发效率提升30%以上，助力技术快速落地。

尽管GO-1以AgiBot G1机器人的真实数据为预训练基础，但已在AgiBot G1、UR5等多类机器人平台完成适配验证，同时在MuJoCo、Isaac Sim等主流仿真环境中取得优异性能——这意味着开发者无需针对特定机器人重新训练模型，极大降低了跨平台开发成本。

目前，GO-1模型已在GitHub与Hugging Face开放下载。无论是AI研究者还是具身智能初学者，都可通过以下链接获取模型，快速开启开发：

GitHub：https://github.com/OpenDriveLab/AgiBot-World
Hugging Face：https://huggingface.co/agibot-world/GO-1

# AI快讯

文章版权归作者所有，未经允许请勿转载。

全球首个ViLLA架构具身模型GO-1开源 智源机器人降低具身智能开发门槛

全球首个ViLLA架构具身模型GO-1开源智源机器人降低具身智能开发门槛