阿里巴巴开源万相2.1模型，通义万相引领视频生成新潮流

AI快讯1年前 (2025)发布 niko

今日，阿里巴巴官方对外宣布，旗下视频生成模型万相2.1模型全面开源，14B和1.3B双版本正式上线。其中，14B专业版性能卓越，具备顶尖的表现力，能够满足对视频质量有极高要求的场景；而1.3B极速版则适合消费级显卡，仅需8.2GB显存即可生成480P高质量视频，适用于二次模型开发和学术研究。

据官方介绍，此次开源的Wan2.1在处理复杂运动、还原真实物理规律、提升影视质感及优化指令遵循等方面优势显著，可满足创作者、开发者和企业用户的多样化需求。借助通义万相，用户能轻松实现高质量的视频生成，在广告和短视频领域，充分满足了对创意的高要求。

在权威评测集VBench中，通义万相以总分86.22%的成绩位居榜首，大幅领先Sora、Minimax、luma等国内外其他视频生成模型。该评测基于主流的DiT和线性噪声轨迹FlowMatching范式，通过一系列技术创新提升了模型的生成能力。特别是自研的高效3D因果VAE模块，成功实现256倍无损视频隐空间压缩，支持任意长度视频的高效编码与解码。

通义万相在生成视频时，采用基于主流DiT结构的FullAttention机制，有效建模时空依赖性，保障生成视频的高质量与一致性。模型的训练策略采用6阶段分步训练法，从初步的低分辨率数据训练逐步引入高分辨率数据，确保模型在不同条件下都能有优异表现。此外，通义万相在数据处理方面采取严格的清洗流程，保证训练数据的高质量。

在训练与推理效率优化方面，通义万相运用多种先进技术，如分布式训练策略、激活值优化和显存管理，确保模型训练的稳定性与推理效率。通过与阿里云训练集群的智能调度结合，模型在训练过程中能够自动识别故障并快速重启，保障训练过程顺利进行。

通义万相2.1已在GitHub、HuggingFace等平台开源，支持多种主流框架，为开发者和研究者提供便利的使用体验。无论是快速原型开发还是高效生产部署，通义万相都能满足不同用户的需求，为视频生成技术的发展注入新活力。

# AI快讯

文章版权归作者所有，未经允许请勿转载。