通义万相Wan2.1开源,引领高质量视频生成新潮流

AI快讯3个月前发布 niko
30 0
AiPPT - 一键生成ppt

通义万相Wan2.1助力视频生成新突破近日,通义对外宣布开源最新的通义万相大模型Wan2.1。这款聚焦于高质量视频生成的AI模型,凭借诸多突出表现,成为众多用户在AI时代的得力之选。

权威评测夺冠,技术创新支撑实力在权威评测集Vbench里,通义万相Wan2.1成绩出众,以86.22%的总分位居榜首,远超Sora、Minimax等知名视频生成模型。这得益于其基于主流范式进行的技术创新,自研的高效3D因果VAE模块实现256倍无损视频隐空间压缩,还通过特征缓存机制提升编解码效率并减少内存占用。在单个A800GPU环境下,视频重建速度更是比现有先进方法快2.5倍。

独特架构与训练策略,保障视频质量 Wan2.1的视频Diffusion Transformer架构借助FullAttention机制有效处理长时程时空依赖,生成高质量且时空连贯的视频。其6阶段分步训练法从低分辨率图像预训练逐步过渡到高分辨率视频训练,最后用高质量标注数据微调。在数据处理上,四步数据清洗流程筛选出优质多样的数据,促进模型有效训练。

优化训练推理效率,多策略协同发力在模型训练和推理效率优化方面,Wan2.1采用多种策略。训练阶段不同模块采用不同分布式策略并避免计算冗余,显存优化采用分层策略结合PyTorch机制解决碎片问题。推理阶段,运用FSDP和2DCP组合方法多卡分布式加速,量化方法进一步提升性能。

多平台开源,提供灵活开发选择 目前,通义万相Wan2.1已在GitHub、HuggingFace和魔搭社区等平台开源,支持多种主流框架。开发者和研究者可通过Gradio快速体验,或用xDiT并行加速推理。同时,模型正加速接入Diffusers和ComfyUI,简化一键推理与部署流程,降低开发门槛。

© 版权声明
Trea - 国内首个原生AI IDE