VLOGGER – 谷歌推出的图像到合成人物动态视频的模型

AI工具7个月前更新 niko
22 0

谷歌AI的VLOGGER技术解析

VLOGGER是谷歌研究团队精心研发的先进技术,它利用多模态扩散模型,能够从单一的静态图片和音频样本中生成栩栩如生的人像动态视频。这一创新成果的核心在于通过AI技术,将一张静态的图像转化为具有动态属性的视频角色,同时确保角色的逼真度。

VLOGGER的独特之处

VLOGGER的生成视频不仅面部表情和嘴唇动作与音频同步,还包括头部动作、眼神、眨眼以及上身和手部的协调动作,这标志着音频驱动视频合成技术的一次重大进步。

VLOGGER的官方网站及相关资料

VLOGGER的功能亮点

  • 动态视频制作:将静态肖像与音频相结合,生成具有语音的动态视频。
  • 高度逼真与多样性:视频在展现不同表情和动作的同时,保持背景和真实感的一致性。
  • 视频编辑能力:对现有视频进行编辑,如改变人物表情以匹配未改动的视频部分。
  • 无需原视频:即使没有人物的原始视频资料,也能生成说话的面部视频。
  • 跨语言视频内容适配:通过编辑唇部和面部区域,实现视频内容的跨语言翻译。

VLOGGER工作流程概述

VLOGGER的工作流程分为两个主要阶段,首先是根据音频生成运动,然后是生成时间上连贯的视频。

第一阶段:音频驱动的运动生成

  1. 音频预处理:接收并处理音频信号,如果输入为文本,则通过TTS转换为音频波形。
  2. 3D面部表情预测:使用基于Transformer的网络,预测与音频同步的3D面部表情和身体姿势。
  3. 控制表示生成:网络输出预测的面部表情和姿势残差参数,用于控制视频生成过程。

第二阶段:时间连贯的视频生成

  1. 视频生成:时间扩散模型结合第一阶段的控制信息和参考图像,生成连贯的视频帧。
  2. 高质量生成:通过基于扩散的图像到图像翻译模型,生成动画化的帧序列。
  3. 分辨率提升:使用超分辨率扩散模型提升视频分辨率,以提高质量。
  4. 时间外延技术:通过时间外延技术,生成任意时长的视频。

VLOGGER的训练与数据集

VLOGGER在名为MENTOR的大规模数据集上接受训练,该数据集包含了2200小时的动态手势和800000个身份的大量数据。这使得模型能够学习并生成高质量、连贯的视频序列。

通过VLOGGER技术,我们在视频制作、远程教育和娱乐领域等领域看到了巨大的应用潜力。这项技术的发展预示着音频驱动视频合成的未来趋势,为数字内容创作带来了无限可能。

© 版权声明

相关文章

暂无评论

暂无评论...