Open-Sora – 开源的类Sora架构的视频生成模型和复现方案

AI工具1年前 (2024)更新 niko

56 0 0

探索Open-Sora：一款先进的视频生成模型

什么是Open-Sora

Colossal-AI团队精心开源了一款名为Open-Sora的视频生成模型，它被设计来复制OpenAI的Sora视频生成服务。Open-Sora是一款基于DiT（Diffusion Transformer）架构的模型，它通过三个递进式的训练阶段来实现栩栩如生的文本到视频内容生成：全面化图像预训练、配套视频资料预训练，以及精细调整以确保视频高质量输出。对此感兴趣的开发者和研究者现在可以免费访问Open-Sora的视频生成模型的所有训练细节，包括数据处理流程、模型参数训练和关键检查点。

访问Open-Sora项目

项目官方主页可从这里访问。
如果您想查看代码或参与项目，可以访问GitHub上的Open-Sora代码库。

模型架构解析

Open-Sora的模型架构采用了流行的Diffusion Transformer（DiT）架构，它基于华为开源的PixArt-α，一个流于文字到图像转换的高质量模型，并经过修改以适应视频生成的需求。这一修改通过插入时间注意力层来实现，从而允许模型在生成视频时考虑到时间维度。

主要架构组件

模型的核心构成包括：

预训练VAE（变分自编码器）：执行数据压缩的角色，将视频数据映射到潜在空间的低维表示。
文本编码器：负责将文本表示转换为嵌入，这些嵌入将指导视频内容生成过程。
STDiT（Spatial Temporal Diffusion Transformer）：模型的核心部分，利用空间-时间注意力机制处理视频数据，并且引入交叉注意力来赋予视频内容文本描述的语义信息。

架构设计细节

空间-时间注意力：STDiT的每一层都整合了空间和时间注意力模块，以处理视频帧中的二维空间特征和时间序列。
交叉注意力：在时间注意力层之后，交叉注意力层帮助整合文本嵌入与视频特征，确保视频输出与文本描述紧密匹配。
训练与推理流程：训练阶段，VAE使用视频数据进行压缩并与之结合；而推理阶段，VAE从潜在空间中采样并与文本提示一并输入到STDiT模型中，最终生成视频。