VASA-1 – 微软推出的静态照片对口型视频生成框架

AI工具7个月前更新 niko
19 0 0

标题:VASA-1:微软亚洲研究院的先进面部动画技术

VASA-1是由微软亚洲研究院研发的创新技术利用人工智能,可以将静态的人脸照片动态化,生成匹配语音音频的3D说话面部动画。这一技术成果不仅实现了高度逼真的口型同步,还包含了丰富的面部表情和自然的头部动作,为虚拟角色的生成带来了前所未有的真实感和活力。本文将详细介绍VASA-1的功能特性、官方资源和工作原理。

VASA-1的功能亮点

  1. 精准的口型同步:VASA-1能够精确地将唇部动作与输入的语音音频同步,实现极具真实感的说话效果。
  2. 复杂的面部表情:除了口型外,技术还能够捕捉并将复杂的面部表情和细微的情感细节重现出来。
  3. 自然的头部运动:模拟真实头部动作,如转动和倾斜,进一步增强说话面部视频的生动性。
  4. 高效视频生成能力:VASA-1支持高达每秒40帧视频的在线生成,并能以512×512的分辨率输出,同时保持极低的延迟。
  5. 灵活性和可控性:通过接受如主要目光方向、头部距离及情感偏移等条件信号,增强输出的多样性和适应性。
  6. 广泛适应性:能够处理多种输入,包括艺术照片、歌唱音频和非英语语音。

官方网站和研究论文

VASA-1的工作原理

VASA-1的工作流程涉及多个步骤,以下是其核心环节的简要说明:

  1. 输入准备:系统接收一张静态的面部图像和一个语音音频剪辑作为输入。
  2. 面部特征提取:通过面部编码器,从静态图像中提取出3D外观体积、身份代码、头部姿态和面部动画代码等关键特征。
  3. 面部潜在空间建模:在潜在空间内构建面部模型,实现面部动态和其他元素(如身份和外观)的高效解耦,确保表情和动态的精确表达。
  4. 扩散模型训练:采用Diffusion Transformer模型,训练其在面部潜在空间内根据音频和控制信号生成全方位的面部动态和头部运动。
  5. 条件信号整合:将控制信号如视线方向、头部距离和情感偏移整合到模型中,指导面部动态的生成。
  6. 动态和运动生成:利用训练完成的模型和输入的音频及控制信号,生成面部动态和头部运动的代码序列。
  7. 视频帧生成:结合面部解码器、提取的外观和身份特征,以及生成的动态和运动代码,最终生成视频帧。

VASA-1技术的问世,标志着虚拟角色生成技术的又一重要进步,对于影视制作、视频游戏和虚拟现实等领域都有着重要的应用价值。

© 版权声明

相关文章

暂无评论

暂无评论...