Figure自研Helix：开启人形机器人家庭应用新时代的视觉-语言-动作模型

在人工智能与机器人技术的前沿探索中，Figure公司在与OpenAI分道扬镳后，推出了自研的首个模型——Helix，这是一款视觉-语言-动作模型（VLA），引发行业广泛关注。

家庭环境向来是机器人技术发展的巨大挑战，这里物品繁杂，形状、尺寸、颜色和质地各异。传统机器人要在家庭环境发挥作用，面临着诸多难题，如学习新行为需大量人力投入，成本高昂。而Helix的出现，为解决这些问题带来了新契机。

Helix具有创新性的架构设计，是首个由「系统1，系统2」组成的VLA。系统2作为VLM主干网络，经大规模数据预训练，用于场景和语言理解；系统1则是80M参数交叉注意力Transformer，负责低层控制。这种架构让每个系统在最佳时间尺度运行，实现了速度与泛化能力的平衡，具备速度快、可扩展性强、架构简单、职责分离等优势。

在模型训练方面，研究人员收集约500小时高质量遥操作行为数据集，采用完全端到端的训练方式，通过标准回归损失将原始像素和文本命令映射到连续动作，实现两个组件联合优化。而且，Helix能在Figure机器人上进行高效的模型并行部署，每个机器人配备双低功耗嵌入式GPU，其推理流程在S2和S1模型间分割，实现异步执行，为实时控制创建紧密反馈循环。

Helix在实际应用中取得了显著成果。它能以200Hz频率协调35个自由度的动作空间，实现精细化VLA全上半身控制；在多机器人协调任务中，实现零样本学习的杂货存储协作，展现强大的通用泛化能力；还赋予机器人「任意物品拾取」能力，只需简单指令就能处理数千件陌生家居物品。

此外，Helix的训练极为高效，仅用少量数据就能实现强大功能。并且，它采用统一的模型权重系统，用单一模型完成多样化任务。Helix标志着Figure在人形机器人行为能力拓展上取得突破性进展，随着应用的不断深入，有望为家庭机器人领域带来更大变革。

# AI快讯

文章版权归作者所有，未经允许请勿转载。