在人工智能与机器人技术的前沿探索中,Figure公司在与OpenAI分道扬镳后,推出了自研的首个模型——Helix,这是一款视觉-语言-动作模型(VLA),引发行业广泛关注。
家庭环境向来是机器人技术发展的巨大挑战,这里物品繁杂,形状、尺寸、颜色和质地各异。传统机器人要在家庭环境发挥作用,面临着诸多难题,如学习新行为需大量人力投入,成本高昂。而Helix的出现,为解决这些问题带来了新契机。
Helix具有创新性的架构设计,是首个由「系统1,系统2」组成的VLA。系统2作为VLM主干网络,经大规模数据预训练,用于场景和语言理解;系统1则是80M参数交叉注意力Transformer,负责低层控制。这种架构让每个系统在最佳时间尺度运行,实现了速度与泛化能力的平衡,具备速度快、可扩展性强、架构简单、职责分离等优势。
在模型训练方面,研究人员收集约500小时高质量遥操作行为数据集,采用完全端到端的训练方式,通过标准回归损失将原始像素和文本命令映射到连续动作,实现两个组件联合优化。而且,Helix能在Figure机器人上进行高效的模型并行部署,每个机器人配备双低功耗嵌入式GPU,其推理流程在S2和S1模型间分割,实现异步执行,为实时控制创建紧密反馈循环。
Helix在实际应用中取得了显著成果。它能以200Hz频率协调35个自由度的动作空间,实现精细化VLA全上半身控制;在多机器人协调任务中,实现零样本学习的杂货存储协作,展现强大的通用泛化能力;还赋予机器人「任意物品拾取」能力,只需简单指令就能处理数千件陌生家居物品。
此外,Helix的训练极为高效,仅用少量数据就能实现强大功能。并且,它采用统一的模型权重系统,用单一模型完成多样化任务。Helix标志着Figure在人形机器人行为能力拓展上取得突破性进展,随着应用的不断深入,有望为家庭机器人领域带来更大变革。