开源视频生成框架,全控姿态调整,创新技术助力摄影艺术。

AI工具7个月前更新 niko
22 0

什么是Follow Your Pose?

Follow Your Pose是一个创新的基于文本到视频生成的框架,由来自清华大学、香港科技大学、腾讯AI Lab和中科院的研究人员共同开发并开源。该技术允许用户仅通过文本描述和指定的人物姿态信息来创作视频。框架通过精心设计的两阶段训练方法,不但生成与文本描述和姿态序列高度一致的视频,还确保了人物动作的真实感和视频中动作的连贯性。

Follow Your Pose的官方资源

以下是Follow Your Pose的一些官方在线资源,供感兴趣的用户进一步探索和使用:

Follow Your Pose的核心功能

Follow Your Pose框架集成了以下功能:

  • 文本驱动的视频生成:用户输入文本说明,框架据此生成视频,涵盖角色动作和场景背景。
  • 精准姿态控制:支持用户通过预设姿态序列精准操控角色动作。
  • 时间连贯性:确保视频的自然过渡,无突兀转换或闪烁。
  • 多样化角色与背景生成:制作多种风格的视频,如现实、卡通、赛博朋克等。
  • 多角色场景:支持多个角色的视频生成,并根据文本指定角色行为。
  • 风格化视频生成:添加风格描述,如“卡通”或“赛博朋克”,以创作独特艺术风格的视频。

Follow Your Pose的工作机制

Follow Your Pose的工作原理包括以下步骤,结合了文本和姿态信息以生成视频:

  1. 第一阶段:文本到图像生成
  2. 姿态编码器:利用编码器从姿态序列中抽取关键点特征。
  3. 特征注入:将提取的姿态特征注入到预训练的文本到图像(T2I)模型中。
  4. 姿态图像对训练:模型学习根据文本和姿态信息生成图像。

  5. 第二阶段:视频生成

  6. 视频数据集训练:使用无姿态标注的视频数据集(如HDVLIA)。
  7. 3D网络扩展:扩展U-Net模型以处理视频输入,并通过伪3D卷积和时间自注意力模块模拟时间序列。
  8. 跨帧自注意力:提升视频连贯性,保持内容一致性。
  9. 微调:仅更新与时间连贯性相关的参数。

  10. 视频生成过程

  11. 输入处理:用户输入描述和姿态序列。
  12. 视频输出:模型基于这些输入生成视频,预训练参数大多冻结,仅计算连贯性模块。

这种两阶段训练策略使Follow Your Pose能利用大量易获取的文本和视频数据,生成具有高度控制性和连贯性的视频成果。

© 版权声明

相关文章

暂无评论

暂无评论...