语言与视频模型差异凸显，AI如何走出“柏拉图洞穴”？

UC伯克利大学计算机副教授、Google Brain研究员SergeyLevine，在谷歌学术被引用次数高达18万次，他提出了一个关键问题：为何语言模型能从预测下一个词中学到很多，视频模型却从预测下一帧中学到很少？他参与了Google知名机器人大模型PALM- E、RT1和RT2等项目。

在AI探索中，存在一种“单一终极算法”假设，一些研究者推测人类心智的复杂和灵活源于大脑中的单一算法，若AI能复现该算法，就能通过经验自主获取多元能力。语言模型在这方面取得了成功突破，LLMs实现能力跃升背后的算法是“下一词预测+ 强化学习微调”，十分简单。

然而，这个假设对视频模型并不适用。早在基于Transformer的语言模型出现前，研究人员就认为视频模型可像LLM预测下一词那样，通过预测视频下一帧学习。从数据上看，视频数据包含信息更丰富，视频模型应比语言模型强大。但实际情况是，尽管视频预测模型能生成逼真视频，在解决复杂问题和推理方面，语言模型仍是主要选择。

这是因为视频数据是物理世界的直接映射，视频模型需自主归纳物理规律；而LLMs可调用人类总结的知识，模仿已有推理结果。作者认为，这就像AI系统处于“柏拉图洞穴”中，互联网比作洞穴，真实世界比作洞穴外的阳光，AI通过语言模型学习人类知识，如同只看到洞穴墙壁上的影子，未真正理解世界。

对于AI如何走出“洞穴”，作者认为可将已实现部分人类认知模拟的LLMs作为“心智原型”，为通用AI提供起点。长期目标是突破“影子依赖”，让AI通过传感器直接与物理世界交互。评论者提出，视觉、语言、行动系统如同独立洞穴，跨模态连接是挑战，需找到统一方法连接这些模态。

# AI快讯

文章版权归作者所有，未经允许请勿转载。