在2024年最后一个月,我国视频生成大模型的应用落地突然加速,特别是视频生成模型成为市场关注的焦点。12月19日,快手的可灵更新了1.6模型,这个安静的动作背后似乎隐藏着深意。此前,12月18日,在字节的火山原动力大会上,[豆包](https://ai-kit.cn/sites/2196.html)视频生成大模型首次对外发布。紧接着,张楠从抖音转向剪映,并在会上简要介绍了即梦——一款与可灵类似的视频生成工具,将其定义为‘想象力相机’,以此对应抖音的‘现实相机’。尽管张楠并未过多涉及产品细节,只是展示了两个样片,并表示产品技术还处于早期阶段。这可能是为了避免外界将即梦与前一周公布的Sora Turbo进行直接比较,而Sora的故事板(view story)功能——提示词直接转化为剧本,吸引了众多用户的关注。
腾讯混元视频生成大模型也不甘落后,于12月初推出,并将其应用命名为‘元宝’。与Sora、可灵、即梦不同,腾讯混元的主要特点是以文生视频为主;而其他几款工具均能实现文生视频和图生视频。当前,大模型对语义的理解能力依然有限,导致文生视频应用效果达不到满意程度,难以吸引AGIC创作者积极使用。腾讯明白这一点,并在产品发布当天宣布了开源策略。
尽管国产视频生成应用已接近10余款,但从过去20天的情况来看,国产视频生成模型主要掌握在大公司手中,与大模型水平、算力密切相关,视频数据积累更是决定性因素。此外,大模型早期的FOMO情绪(Fear of Missing Out)依然存在。
大模型生成视频看上去易如反掌,但其实,那些制作精良的AI视频,仍属少数人技能范畴。一个2分钟的AI短片背后,创作者需要首先拿出基于AI能力实现内容的脚本,有时还需借助AI工具,如ChatGPT等。然后,结合分镜内容,通过AI文生图工具将分镜以静态图展现。之后,再将静态图经过PS后期处理和图片超分辨率处理,以保证图生视频的质量,最后将图片交由AI视频工具进行动态分镜生成。可以看到,当前的AI视频大多为图生视频,并且是经过专业处理的图片素材,需要多次续写配合后期剪辑才能完成。
文生视频虽面临激励创作者使用的障碍,但像腾讯混元这样的平台,给用户提供了简单的操作机会。在文生视频领域,腾讯混元确实超出了行业平均水平。不仅可以实现短暂的动态效果,也为创作者提供了新的尝试舞台。尽管如此,创作者对AI视频应用期望值很高,这要求工具不仅仅是快速展现思想,更应该成为灵感的触发器。
行业内的大公司如可灵和即梦,在引导用户群体和使用场景上都有明显的动向。可灵推出的AI+短剧计划,明显意图将AI与影视、广告等领域结合,通过这种方式渗透。腾讯混元则明确提出适用于广告宣传和动画制作等工业级商业场景。两者都旨在降低广告主的创作门槛,并拓宽应用领域。
尽管即梦和可灵具备图生视频的能力,但行业前景仍然充满挑战。国产AI视频应用的底层模型架构,尽管存在一定相似性,但在关键问题的解决上,各家公司的底层优化能力和数据训练结果显得十分重要。创作者也希望AI视频应用能够快速、准确地展现自己的创意,并帮助激发新的灵感。
视频生成大模型的共同努力方向包括一致性、视觉真实度、动态幅度以及提示词的语义理解能力等方面。尽管许多产品宣称一致性表现良好,但实际上都在默默努力。人物动态表现力方面,目前各种AI视频工具还有待提升。俞白眉导演与AI的探索中,就遇到了动作与AI相结合方面的挑战。尽管如此,创作者仍会根据不同题材、需求及个人偏好选择不同的AI视频工具。
国产AI视频生成应用中,快手推出的可灵是唯一公布过数据的应用,其财报显示,可灵的月活跃用户数和累计用户数均表现出色,商业化成绩也相当亮眼。业界对于AI视频应用的期待值极高,但由于技术和市场的不确定性,现在远未到决出胜者的时刻。同时,AI一天的发展速度,可能就等同于传统领域的一年。当前市场的发展,预示着视频生成大模型的赛道才刚刚起步。