Open-Sora – 开源的类Sora架构的视频生成模型和复现方案

AI工具2年前 (2024)更新 niko

探索Open-Sora：一款先进的视频生成模型

什么是Open-Sora

Colossal-AI团队精心开源了一款名为Open-Sora的视频生成模型，它被设计来复制OpenAI的Sora视频生成服务。Open-Sora是一款基于DiT（Diffusion Transformer）架构的模型，它通过三个递进式的训练阶段来实现栩栩如生的文本到视频内容生成：全面化图像预训练、配套视频资料预训练，以及精细调整以确保视频高质量输出。对此感兴趣的开发者和研究者现在可以免费访问Open-Sora的视频生成模型的所有训练细节，包括数据处理流程、模型参数训练和关键检查点。

访问Open-Sora项目

项目官方主页可从这里访问。
如果您想查看代码或参与项目，可以访问GitHub上的Open-Sora代码库。

模型架构解析

Open-Sora的模型架构采用了流行的Diffusion Transformer（DiT）架构，它基于华为开源的PixArt-α，一个流于文字到图像转换的高质量模型，并经过修改以适应视频生成的需求。这一修改通过插入时间注意力层来实现，从而允许模型在生成视频时考虑到时间维度。

主要架构组件

模型的核心构成包括：

预训练VAE（变分自编码器）：执行数据压缩的角色，将视频数据映射到潜在空间的低维表示。
文本编码器：负责将文本表示转换为嵌入，这些嵌入将指导视频内容生成过程。
STDiT（Spatial Temporal Diffusion Transformer）：模型的核心部分，利用空间-时间注意力机制处理视频数据，并且引入交叉注意力来赋予视频内容文本描述的语义信息。

架构设计细节

空间-时间注意力：STDiT的每一层都整合了空间和时间注意力模块，以处理视频帧中的二维空间特征和时间序列。
交叉注意力：在时间注意力层之后，交叉注意力层帮助整合文本嵌入与视频特征，确保视频输出与文本描述紧密匹配。
训练与推理流程：训练阶段，VAE使用视频数据进行压缩并与之结合；而推理阶段，VAE从潜在空间中采样并与文本提示一并输入到STDiT模型中，最终生成视频。

开放式训练复现方案

Open-Sora的训练复现方案参考了Stable Video Diffusion (SVD)，分为三个阶段进行：

第一阶段：大规模图像预训练——通过大量图像数据集训练模型，以建立图像内容理解。
第二阶段：大规模视频预训练——强化模型对视频时间序列的理解，使用广泛的视频题材和时序注意力模块。
第三阶段：高质量视频数据微调——使用高时长、高分辨率的视频数据进行微调，提升视频的质量和真实感。

这套方案为Open-Sora模型逐步打下了视频生成能力的基础，最终实现了高质量的视频生成效果。

# AI工具 # AI项目和框架

文章版权归作者所有，未经允许请勿转载。