Yann LeCun对自回归LLM的观点 :在AI领域,图灵奖得主YannLeCun是个另类,即便自回归LLM能力增强、解决任务增多,他仍坚信其没有光明未来。在近期演讲中,他提出“四个放弃”,并给出联合嵌入架构等研究方向建议,还表示对人类水平AI感兴趣就别研究LLM。他认为世界模型是实现AGI或“人类水平的人工智能”的方向,其团队也一直在推进相关研究。
直觉物理理解的相关研究背景:理解“直觉物理理解”很关键,对物理规则的直觉理解是人类认知基础,这种基本认知在多种动物中都有发现,是核心知识假说的证据。在构建高级人类智能水平机器时,AI系统在常识性物理理解方面存在不足,体现了莫拉维克悖论。此前改善物理直觉理解的AI模型研究分为结构化模型和基于像素的生成模型两类。
V-JEPA架构的探索与特点:LeCun等人在新论文中探索了联合嵌入预测架构(JEPA),它在两种对立观点间找到中间立场。JEPA认为对未来世界状态的预测应在模型学习抽象、内部表示中进行,且让算法自行学习表示。新论文研究的V-JEPA通过在表示空间中重建视频的被掩蔽部分来学习表示视频帧。
V-JEPA的实验及成果 :研究依赖预期违反框架探测物理直觉理解,V-JEPA能准确区分遵循和违反物理定律的视频。在自然视频上训练的V-JEPA模型在相关基准测试上取得高准确率,而多模态大语言模型和在像素空间中进行预测的可比较视频预测方法表现不佳。为更好理解V-JEPA中物理直觉理解的涌现,研究团队进行了消融实验,发现学习表示空间中进行视频预测是获得物理直觉理解的稳健目标。
测量直觉物理理解的方法:预期违反范式源自发展心理学,已扩展到评估AI系统物理理解能力。通过向模型展示成对场景,测试其对特定直觉物理概念的理解。V-JEPA架构主要开发目的是提高模型适应高层级下游任务的能力,研究团队测试了其成功原因的假设。V-JEPA由编码器和预测器构成,自监督训练后可用于探测模型对世界的理解。
V-JEPA与其他模型的比较及属性分析 :研究团队在多个数据集上评估V-JEPA的直觉物理理解能力,并与其他视频模型比较。结果显示,V-JEPA在所有数据集上显著优于未训练网络,在学习到的表征空间中进行预测足以发展出对直觉物理的理解。V-JEPA在与场景内容相关属性方面表现出色,但在某些类别上存在困难。团队还将V-JEPA与人类表现比较,发现其在所有直观物理属性上实现相同或更高性能,并研究了掩码类型等对V-JEPA IntPhys分数的影响。