阿里万相视频生成大模型开源，多项能力领先实现全模态开源新突破

阿里实现全模态开源，万相视频生成大模型亮相

在众多AI公司对开源路线举棋不定时，阿里技术团队开源了万相视频生成大模型，且附上全部推理代码和权重，采用最宽松开源协议。当下很多视频生成模型面临诸多挑战，如复杂人物动作还原困难、物体交互物理变化处理不佳、长文本指令遵循问题等，而阿里新开源的万相模型却表现卓越。

万相模型优势尽显，多方面表现突出

万相视频生成大模型不仅能呈现旋转、跳跃等复杂动作，精准模拟碰撞、反弹等物理场景，还可准确理解中英文长文本指令，实现场景切换与角色互动。该模型有14B和1.3B两个参数规格，1.3B小版本适合消费级显卡，生成视频质量超其他更大尺寸开源模型，仅需8.2GB显存就能生成480P高质量视频，适用于二次模型开发和学术研究；14B版本性能更强，在权威评测集VBench中领先众多国内外视频生成模型，成为视频生成领域新标杆。

实测万相功能丰富，表现令人惊喜

机器之心对万相进行实测，发现它在文字视频生成、复杂运动生成、长文本遵循以及物理建模等方面优势显著。它是首个支持中文文字生成及中英文文字特效生成的视频生成模型，输入简短文字描述，就能生成电影级文字和动画。在复杂运动生成上，能在多种场景稳定生成复杂运动，通过部分视频生成中的图灵测试。长文本遵循方面，万相听得懂复杂指令，细节处理到位，且中英文皆可理解。物理建模上，能从大量视频数据中学到物理规律，还原如牛奶倾倒、草莓入水等物理场景。此外，通义万相网页端功能强大，支持文生视频、图生视频等多种功能，应用潜力大。

核心技术创新，助力万相能力突破

万相大模型实现生成能力突破主要源于两大核心创新。一是高效的因果3DVAE，万相团队自研新型架构，并结合多种策略改进时空压缩、降低内存使用、确保时间因果性，其VAE重建速度比现有先进方法快2.5倍。二是视频DiffusionTransformer，基于主流视频DiT结构，通过FullAttention机制有效建模长时程时空依赖，采用线性噪声轨迹的流匹配方法训练，还通过多种策略提升模型最终性能。

Qwen+万相，阿里全模态开源独树一帜

回顾2023年，一些顶级AI公司走上开源路，阿里是典型代表之一。如今，阿里Qwen衍生模型超10万个，在HuggingFace开源大模型榜单中成绩优异。阿里开源大模型不仅在语言方面出色，多模态方面也领先，如今年1月开源的Qwen2.5-VL获多项评测冠军。万相开源后，阿里实现全模态开源，在AI巨头中脱颖而出。目前，万相已在多个平台发布，为开发者提供全方位支持，期待阿里开源大模型家族持续壮大。开源地址如下：Github:https://github.com/Wan-Video；HuggingFace: https://huggingface.co/Wan-AI；魔搭社区：https://modelscope.cn/organization/Wan-AI

# AI快讯

文章版权归作者所有，未经允许请勿转载。