上海人工智能实验室联合多家单位推出全新通用具身智能大脑框架VeBrain,可实现多模态大模型对物理实体的直接操控。
VeBrain集成视觉感知、空间推理和机器人控制能力,让机器人能“看到-思考-行动”。其亮点众多,统一三类任务的语言建模范式,将机器人控制转化为2D空间文本任务,打通感知、推理、控制建模路径;提出“机器人适配器”实现闭环控制,由点追踪器、运动控制器、策略执行器和动态接管模块组成,实现文本决策到真实动作的精准映射。
在数据集方面,构建了高质量多能力数据集VeBrain-600k,涵盖60万条指令数据,覆盖多模态理解、视觉-空间推理、机器人操作三类任务,辅以多模态链式思维标注,提升模型组合推理能力。
从技术架构看,VeBrain将机器人控制重构为关键点检测和技能识别两个子任务,使控制任务与理解和推理任务共享统一输入输出空间。机器人适配器模块提升了机器人在动态环境中的稳定性与鲁棒性。
测试结果显示,VeBrain在视觉感知、空间推理和机器人控制能力上达到最先进水平。在多模态benchmark和空间推理benchmark上,实现了比肩最强开源模型的多模态能力和同参数量下最优的视觉空间推理能力。在真机验证中,在四足机器人和机械臂上相比现有模型取得显著提升。
© 版权声明
文章版权归作者所有,未经允许请勿转载。