通义万相Wan2.1首尾帧视频模型：开启视频创作新体验

通义万相Wan2.1在GitHub收获1w+星标后再度上新。此次推出的首尾帧视频模型，基于Wan2.1文生视频14B大模型，为创作者带来高效、灵活的视频制作方式。官方称其为业界首个百亿参数规模的开源首尾帧视频模型。

用户只需给出开始和结束两张图片，该模型就能快速生成一段5s、720p的丝滑视频。它还能根据前后视角差异，自动调整镜头角度，保证人物光影正确。目前，普通用户可在通义万相官网体验，开发者能通过GitHub、HuggingFace、魔搭社区等开源平台使用。

为评估其能力，进行了实测。在主体一致性和前后连贯性方面，Wan2.1首尾帧视频模型表现出色。尝试了多种玩法，如改造经典梗图、挑战火爆玩法。在“文艺复兴”表情包生成中，转场丝滑，人物细节保持良好；“时空跨越”表情包生成自带“PPT转场”效果。

从多个维度考察，在写实方面，无论是花朵生长还是人物特写，视频自然逼真，对光影这类细节的把控力 很强。创意玩法上，如毒液变身特效，模型用闪光特效实现变身。二次元风格中，表情还原度高，场景真实。还与可灵（可灵1.6）进行了对比，各有特点。

该模型在技术上，得益于在基础架构模型上引入了额外的条件控制分支。首帧与尾帧和零填充中间帧拼接，再与噪声及掩码拼接作为扩散变换模型输入。还提取首帧和尾帧的CLIP语义特征，通过交叉注意力机制注入生成过程，实现流畅准确的首尾帧变换。

配置方面，以魔搭社区的DiffSynth -StUdio项目为例，开发者可便捷推理。推理显存需求与参数、分辨率、帧数有关，以81帧960*960分辨率视频为例，不同参数设置下显存需求不同。目前官网生成视频耗时较长。体验入口：https://tongyi.aliyun.com/wanxiang/videoCreation。

# AI快讯

文章版权归作者所有，未经允许请勿转载。