阿里实现全模态开源,万相视频生成大模型亮相
在众多AI公司对开源路线举棋不定时,阿里技术团队开源了万相视频生成大模型,且附上全部推理代码和权重,采用最宽松开源协议。当下很多视频生成模型面临诸多挑战,如复杂人物动作还原困难、物体交互物理变化处理不佳、长文本指令遵循问题等,而阿里新开源的万相模型却表现卓越。
万相模型优势尽显,多方面表现突出
万相视频生成大模型不仅能呈现旋转、跳跃等复杂动作,精准模拟碰撞、反弹等物理场景,还可准确理解中英文长文本指令,实现场景切换与角色互动。该模型有14B和1.3B两个参数规格,1.3B小版本适合消费级显卡,生成视频质量超其他更大尺寸开源模型,仅需8.2GB显存就能生成480P高质量视频,适用于二次模型开发和学术研究;14B版本性能更强,在权威评测集VBench中领先众多国内外视频生成模型,成为视频生成领域新标杆。
实测万相功能丰富,表现令人惊喜
机器之心对万相进行实测,发现它在文字视频生成、复杂运动生成、长文本遵循以及物理建模等方面优势显著。它是首个支持中文文字生成及中英文文字特效生成的视频生成模型,输入简短文字描述,就能生成电影级文字和动画。在复杂运动生成上,能在多种场景稳定生成复杂运动,通过部分视频生成中的图灵测试。长文本遵循方面,万相听得懂复杂指令,细节处理到位,且中英文皆可理解。物理建模上,能从大量视频数据中学到物理规律,还原如牛奶倾倒、草莓入水等物理场景。此外,通义万相网页端功能强大,支持文生视频、图生视频等多种功能,应用潜力大。
核心技术创新,助力万相能力突破
万相大模型实现生成能力突破主要源于两大核心创新。一是高效的因果3DVAE,万相团队自研新型架构,并结合多种策略改进时空压缩、降低内存使用、确保时间因果性,其VAE重建速度比现有先进方法快2.5倍。二是视频DiffusionTransformer,基于主流视频DiT结构,通过FullAttention机制有效建模长时程时空依赖,采用线性噪声轨迹的流匹配方法训练,还通过多种策略提升模型最终性能。
Qwen+万相,阿里全模态开源独树一帜
回顾2023年,一些顶级AI公司走上开源路,阿里是典型代表之一。如今,阿里Qwen衍生模型超10万个,在HuggingFace开源大模型榜单中成绩优异。阿里开源大模型不仅在语言方面出色,多模态方面也领先,如今年1月开源的Qwen2.5-VL获多项评测冠军。万相开源后,阿里实现全模态开源,在AI巨头中脱颖而出。目前,万相已在多个平台发布,为开发者提供全方位支持,期待阿里开源大模型家族持续壮大。开源地址如下:Github:https://github.com/Wan-Video;HuggingFace: https://huggingface.co/Wan-AI;魔搭社区:https://modelscope.cn/organization/Wan-AI