开源视频生成框架，全控姿态调整，创新技术助力摄影艺术。

AI工具1年前 (2024)更新 niko

什么是Follow Your Pose？

Follow Your Pose是一个创新的基于文本到视频生成的框架，由来自清华大学、香港科技大学、腾讯AI Lab和中科院的研究人员共同开发并开源。该技术允许用户仅通过文本描述和指定的人物姿态信息来创作视频。框架通过精心设计的两阶段训练方法，不但生成与文本描述和姿态序列高度一致的视频，还确保了人物动作的真实感和视频中动作的连贯性。

Follow Your Pose的官方资源

以下是Follow Your Pose的一些官方在线资源，供感兴趣的用户进一步探索和使用：

官方项目主页：FollowYourPose
GitHub代码库：FollowYourPose GitHub
Arxiv研究论文：Arxiv Paper
Hugging Face运行地址：Hugging Face Space
OpenXLab运行地址：OpenXLab App
Google Colab运行地址：Google Colab Demo

Follow Your Pose的核心功能

Follow Your Pose框架集成了以下功能：

文本驱动的视频生成：用户输入文本说明，框架据此生成视频，涵盖角色动作和场景背景。
精准姿态控制：支持用户通过预设姿态序列精准操控角色动作。
时间连贯性：确保视频的自然过渡，无突兀转换或闪烁。
多样化角色与背景生成：制作多种风格的视频，如现实、卡通、赛博朋克等。
多角色场景：支持多个角色的视频生成，并根据文本指定角色行为。
风格化视频生成：添加风格描述，如“卡通”或“赛博朋克”，以创作独特艺术风格的视频。

Follow Your Pose的工作机制

Follow Your Pose的工作原理包括以下步骤，结合了文本和姿态信息以生成视频：

第一阶段：文本到图像生成
姿态编码器：利用编码器从姿态序列中抽取关键点特征。
特征注入：将提取的姿态特征注入到预训练的文本到图像（T2I）模型中。
姿态图像对训练：模型学习根据文本和姿态信息生成图像。
第二阶段：视频生成
视频数据集训练：使用无姿态标注的视频数据集（如HDVLIA）。
3D网络扩展：扩展U-Net模型以处理视频输入，并通过伪3D卷积和时间自注意力模块模拟时间序列。
跨帧自注意力：提升视频连贯性，保持内容一致性。
微调：仅更新与时间连贯性相关的参数。
视频生成过程
输入处理：用户输入描述和姿态序列。
视频输出：模型基于这些输入生成视频，预训练参数大多冻结，仅计算连贯性模块。

这种两阶段训练策略使Follow Your Pose能利用大量易获取的文本和视频数据，生成具有高度控制性和连贯性的视频成果。

# AI工具 # AI项目和框架

文章版权归作者所有，未经允许请勿转载。