语言与视频模型差异凸显,AI如何走出“柏拉图洞穴”?

AI快讯1天前发布 niko
0 0
AiPPT - 一键生成ppt

UC伯克利大学计算机副教授、Google Brain研究员SergeyLevine,在谷歌学术被引用次数高达18万次,他提出了一个关键问题:为何语言模型能从预测下一个词中学到很多,视频模型却从预测下一帧中学到很少?他参与了Google知名机器人大模型PALM- E、RT1和RT2等项目。

在AI探索中,存在一种“单一终极算法”假设,一些研究者推测人类心智的复杂和灵活源于大脑中的单一算法,若AI能复现该算法,就能通过经验自主获取多元能力。语言模型在这方面取得了成功突破,LLMs实现能力跃升背后的算法是“下一词预测+ 强化学习微调”,十分简单。

然而,这个假设对视频模型并不适用。早在基于Transformer的语言模型出现前,研究人员就认为视频模型可像LLM预测下一词那样,通过预测视频下一帧学习。从数据上看,视频数据包含信息更丰富,视频模型应比语言模型强大。但实际情况是,尽管视频预测模型能生成逼真视频,在解决复杂问题和推理方面,语言模型仍是主要选择。

这是因为视频数据是物理世界的直接映射,视频模型需自主归纳物理规律;而LLMs可调用人类总结的知识,模仿已有推理结果。作者认为,这就像AI系统处于“柏拉图洞穴”中,互联网比作洞穴,真实世界比作洞穴外的阳光,AI通过语言模型学习人类知识,如同只看到洞穴墙壁上的影子,未真正理解世界。

对于AI如何走出“洞穴”,作者认为可将已实现部分人类认知模拟的LLMs作为“心智原型”,为通用AI提供起点。长期目标是突破“影子依赖”,让AI通过传感器直接与物理世界交互。评论者提出,视觉、语言、行动系统如同独立洞穴,跨模态连接是挑战,需找到统一方法连接这些模态。

© 版权声明
Trea - 国内首个原生AI IDE