在机器人领域,如何让其在真实环境中处理复杂任务并自主推理步骤一直是关键难题。 美国具身智能初创公司PhysicalIntelligence给出的答案是让机器人学会以系统2思维进行思考。
昨日,Physical Intelligence推出“分层交互式机器人”(Hi Robot)系统。此系统可将视觉-语言-行动(VLA)模型,如π0,融入分层推理进程。π0作为“系统1”执行熟练任务,高层次语义视觉-语言模型(VLM)充当“系统2”,通过“自言自语”推理复杂任务和语言交互,推动机器人把复杂任务分解成中间步骤。
该高层次策略是一个VLM,使用与π0相同的VLM主干网。训练后,它能处理复杂提示、观察场景并将任务拆解为小步骤,交给π0的VLA模型执行,同时结合实时上下文反馈。比如清理桌子时,用户说“那不是垃圾”,模型能理解含义并执行正确步骤。
Hi Robot系统的分层推理优势明显。如同语言模型解决复杂问题时,HiRobot将复杂提示和反馈拆解为简单步骤再交给π0模型,能更好处理这些内容。而且,PhysicalIntelligence团队用网络规模预训练初始化VLM,使模型能回答涉及图像和文本上下文的问题,Hi Robot能更好继承VLM在预训练中积累的知识。
通过检查Hi Robot面对复杂提示时的内部“思维”,能了解其系统如何完成复杂任务。π0原本只能执行简单清理任务,在HiRobot控制下,可按复杂提示调整。由于指令以自然语言生成,能检查并观察机器人“自言自语”执行任务的过程。同时,Hi Robot在执行任务中能实时纳入反馈。
为训练机器人跟随复杂、开放式提示,PhysicalIntelligence团队提出合成标注数据集方案,将机器人观察结果和人类标注技能与假设提示和人类插话配对,模拟现实交互,助力模型学习解读和响应复杂指令。评估显示,HiRobot在指令跟随准确率上比GPT-4o高出40%,在多方面优于平面VLA策略。
智能灵活的机器人系统需执行任务并推理复杂问题。HiRobot虽侧重与用户互动,但最终目标是赋予机器人类似人类解决难题时的“内心声音”。能思考复杂问题、运用预训练知识的机器人将更灵活,常识推理能力更强,在开放世界中提供更自然的帮助。PhysicalIntelligence团队期望Hi Robot是迈向这一目标的重要一步。