AI视频生成技术迎来重大突破,催生实时播放无需等待新纪元。联合Adobe与MIT创新推出的自回归视频生成技术——CausVid,标志着视频处理方式从传统的下载整部电影到直接观看流媒体的转变,实现了模型生成首帧画面后,视频即刻播放,后续内容动态生成无缝衔接的新突破。
视频生成等待之苦
那些使用过视频生成模型的用户,一定对那些似乎无尽的等待记忆犹新。生成仅有10秒的视频,往往需等待数分钟方得一见全貌。研究团队认为这长时间的延迟的主要原因在于传统视频生成模型运用的双向注意力机制,导致每一帧都需要依赖前后帧的信息。这种机制类似写故事需要构思所有细节方能动笔,在完整视频生成之前,无法展现任何画面。
创新方案——自回归生成模型
为了攻克实时视频生成的难题,研究团队提出了一项创新的解决方案:通过预训练的双向扩散模型(DiT)来构建自回归生成模型。实验表明,CausVid的自回归生成性能,无需额外的训练就可以支持多种应用,其生成速度和质量均远超现有视频生成方法。
双向教师监督单向自回归学生模型
研究团队通过预训练双向扩散模型(DiT)构建自回归生成模型,并通过分布匹配蒸馏(DMD)将生成步骤从50步缩减到4步。DMD是一种扩散模型蒸馏技术,可将多步扩散模型转换为快速单步生成器,已经在Adobe Firefly文生图中实现快速模式。此次是首次将DMD创新性应用于视频扩散模型,获得显著加速效果。
误差累积的核心难题
对于那些自回归模型,一个核心难题是误差累积。视频的每一帧都基于之前的帧生成,任何早期的微小缺陷都将被放大,导致视频逐步偏离预期路径。为解决这一问题,团队提出了非对称蒸馏策略,具体为:利用一个拥有未来信息的双向教师模型,在训练阶段指导自回归单向学生模型,从而提升其在生成未来帧时的精确度。利用双向教师模型生成的噪声-数据配对来预训练单向学生模型,增强其后蒸馏训练过程的稳定性,并在不同强度的噪声下对训练阶段不同时间的视频帧进行处理,这使得CausVid在测试时能够更有效地对已经生成的帧进行降噪处理。
通过这一创新性的非对称蒸馏方法,CausVid有效减少了自回归模型的误差累积问题,并成功生成了更高质量的视频内容。这种非对称蒸馏中,学生模型和教师模型使用不同的架构,而这只有在DMD风格的蒸馏中才可行。相反,像是渐进式蒸馏或一致性模型等其他方法则要求学生和教师模型使用相同的架构。
实验效果显著
实验结果显示CausVid的表现非常惊艳:首次画面生成延迟从3.5分钟降至1.3秒,提速近170倍;视频生成速度从0.6帧/秒提升至9.4帧/秒,提升了16倍;视频生成质量经过VBench和用户调查验证,优于如Meta的MovieGen和智谱的CogVideoX等主流模型。得益于单向注意力机制,CausVid能成功支持在大语言模型中广泛使用的KV缓存推理技术,显著提升了生成效率。结合滑动窗口机制,CausVid打破了传统模型的长度限制。尽管训练阶段仅接触过10秒的视频,但CausVid仍能生成长达30秒甚至更长的视频,其生成速度和质量均显著优于现有方法。
基于自回归生成的特性,CausVid无需额外训练就能支持多种应用,例如图片动画化——将静态图片自然转化为流畅的视频,赋予图像以生命力;实时视频风格转换——例如将Minecraft游戏画面即时转换为真实场景这一技术转变游戏渲染的新思路,可能在未来仅需要渲染基础3D几何信息,由AI实时补充纹理和光影;以及交互式剧情生成——用户可通过调整提示词实时引导视频剧情的发展,为视频创作者带来全新的创作体验。
了解更多详细情况,可访问项目链接(https://causvid.github.io/)。