探究视频生成大模型赛道的机遇与挑战

AI快讯2年前 (2024)发布 niko

在2024年最后一个月，我国视频生成大模型的应用落地突然加速，特别是视频生成模型成为市场关注的焦点。12月19日，快手的可灵更新了1.6模型，这个安静的动作背后似乎隐藏着深意。此前，12月18日，在字节的火山原动力大会上，[豆包](https://ai-kit.cn/sites/2196.html)视频生成大模型首次对外发布。紧接着，张楠从抖音转向剪映，并在会上简要介绍了即梦——一款与可灵类似的视频生成工具，将其定义为‘想象力相机’，以此对应抖音的‘现实相机’。尽管张楠并未过多涉及产品细节，只是展示了两个样片，并表示产品技术还处于早期阶段。这可能是为了避免外界将即梦与前一周公布的Sora Turbo进行直接比较，而Sora的故事板（view story）功能——提示词直接转化为剧本，吸引了众多用户的关注。

腾讯混元视频生成大模型也不甘落后，于12月初推出，并将其应用命名为‘元宝’。与Sora、可灵、即梦不同，腾讯混元的主要特点是以文生视频为主；而其他几款工具均能实现文生视频和图生视频。当前，大模型对语义的理解能力依然有限，导致文生视频应用效果达不到满意程度，难以吸引AGIC创作者积极使用。腾讯明白这一点，并在产品发布当天宣布了开源策略。

尽管国产视频生成应用已接近10余款，但从过去20天的情况来看，国产视频生成模型主要掌握在大公司手中，与大模型水平、算力密切相关，视频数据积累更是决定性因素。此外，大模型早期的FOMO情绪（Fear of Missing Out）依然存在。

大模型生成视频看上去易如反掌，但其实，那些制作精良的AI视频，仍属少数人技能范畴。一个2分钟的AI短片背后，创作者需要首先拿出基于AI能力实现内容的脚本，有时还需借助AI工具，如ChatGPT等。然后，结合分镜内容，通过AI文生图工具将分镜以静态图展现。之后，再将静态图经过PS后期处理和图片超分辨率处理，以保证图生视频的质量，最后将图片交由AI视频工具进行动态分镜生成。可以看到，当前的AI视频大多为图生视频，并且是经过专业处理的图片素材，需要多次续写配合后期剪辑才能完成。

文生视频虽面临激励创作者使用的障碍，但像腾讯混元这样的平台，给用户提供了简单的操作机会。在文生视频领域，腾讯混元确实超出了行业平均水平。不仅可以实现短暂的动态效果，也为创作者提供了新的尝试舞台。尽管如此，创作者对AI视频应用期望值很高，这要求工具不仅仅是快速展现思想，更应该成为灵感的触发器。

行业内的大公司如可灵和即梦，在引导用户群体和使用场景上都有明显的动向。可灵推出的AI+短剧计划，明显意图将AI与影视、广告等领域结合，通过这种方式渗透。腾讯混元则明确提出适用于广告宣传和动画制作等工业级商业场景。两者都旨在降低广告主的创作门槛，并拓宽应用领域。

尽管即梦和可灵具备图生视频的能力，但行业前景仍然充满挑战。国产AI视频应用的底层模型架构，尽管存在一定相似性，但在关键问题的解决上，各家公司的底层优化能力和数据训练结果显得十分重要。创作者也希望AI视频应用能够快速、准确地展现自己的创意，并帮助激发新的灵感。

视频生成大模型的共同努力方向包括一致性、视觉真实度、动态幅度以及提示词的语义理解能力等方面。尽管许多产品宣称一致性表现良好，但实际上都在默默努力。人物动态表现力方面，目前各种AI视频工具还有待提升。俞白眉导演与AI的探索中，就遇到了动作与AI相结合方面的挑战。尽管如此，创作者仍会根据不同题材、需求及个人偏好选择不同的AI视频工具。

国产AI视频生成应用中，快手推出的可灵是唯一公布过数据的应用，其财报显示，可灵的月活跃用户数和累计用户数均表现出色，商业化成绩也相当亮眼。业界对于AI视频应用的期待值极高，但由于技术和市场的不确定性，现在远未到决出胜者的时刻。同时，AI一天的发展速度，可能就等同于传统领域的一年。当前市场的发展，预示着视频生成大模型的赛道才刚刚起步。

# AI快讯

文章版权归作者所有，未经允许请勿转载。