通义万相Wan2.1在GitHub收获1w+星标后再度上新。此次推出的首尾帧视频模型,基于Wan2.1文生视频14B大模型,为创作者带来高效、灵活的视频制作方式。官方称其为业界首个百亿参数规模的开源首尾帧视频模型。
用户只需给出开始和结束两张图片,该模型就能快速生成一段5s、720p的丝滑视频。它还能根据前后视角差异,自动调整镜头角度,保证人物光影正确。目前,普通用户可在通义万相官网体验,开发者能通过GitHub、HuggingFace、魔搭社区等开源平台使用。
为评估其能力,进行了实测。在主体一致性和前后连贯性方面,Wan2.1首尾帧视频模型表现出色。尝试了多种玩法,如改造经典梗图、挑战火爆玩法。在“文艺复兴”表情包生成中,转场丝滑,人物细节保持良好;“时空跨越”表情包生成自带“PPT转场”效果。
从多个维度考察,在写实方面,无论是花朵生长还是人物特写,视频自然逼真,对光影这类细节的把控力 很强。创意玩法上,如毒液变身特效,模型用闪光特效实现变身。二次元风格中,表情还原度高,场景真实。还与可灵(可灵1.6)进行了对比,各有特点。
该模型在技术上,得益于在基础架构模型上引入了额外的条件控制分支。首帧与尾帧和零填充中间帧拼接,再与噪声及掩码拼接作为扩散变换模型输入。还提取首帧和尾帧的CLIP语义特征,通过交叉注意力机制注入生成过程,实现流畅准确的首尾帧变换。
配置方面,以魔搭社区的DiffSynth -StUdio项目为例,开发者可便捷推理。推理显存需求与参数、分辨率、帧数有关,以81帧960*960分辨率视频为例,不同参数设置下显存需求不同。目前官网生成视频耗时较长。体验入口:https://tongyi.aliyun.com/wanxiang/videoCreation。
© 版权声明
文章版权归作者所有,未经允许请勿转载。