国产开源视频生成模型Open-Sora-Plan更新：全面提升视频质量和制作效率

AI快讯1年前 (2024)发布 niko

备受瞩目的国产开源视频生成模型Open-Sora-Plan近日发布了重大更新，版本v1.1.0现在已经可以生成长达21秒的视频内容。继之前支持生成16秒、720p分辨率的视频之后，这次的更新使得视频生成的质量和效率都有了显著提升，并且完全支持国产AI算力芯片。这个项目由北大-兔展联合团队共同开发，所有的数据、代码和模型都已开源，供人们自由学习与使用。

版本迭代亮点

版本v1.1.0的主要改进包括：
– 采用更高质量的视觉数据与caption，这使得生成的视频在视觉呈现上更为丰富和细腻。
– 基于国产AI计算系统（如华为昇腾）完成了训练和推理，充分展现了国产AI芯片的强大性能。
– 运用了优化后的CausalVideoVAE结构，极大地提高了模型的推理效率和视频生成性能。

技术细节分析

一、模型结构优化

CausalVideoVAE架构：通过减少CausalConv3D的数量并引入卷积权重，优化了模型结构，使得编码效率大为提高。
训练策略：通过多阶段的级联训练方法，在不同阶段采用不同的训练帧数，表现出模型对更多细节的捕捉能力。
损失函数改进：通过运用GAN Loss和3D GAN的改进，模型能够更好地保留高频信息，缓解了网格效应。

二、视觉数据与caption的合作优化

在对图片和视频的收集过程中，运用了多种数据集，并采用LLaVA、ShareGPT4Video等工具生成高质量的captions，使得模型能够得到更为全面的学习和理解。

使用体验分享

经过一系列的优化和迭代，Open-Sora-Plan v1.1.0版本在视频生成的质量和效率上都有显著提升。用户可以在Hugging Face平台上试玩最新版本，并体验视频生成的全过程。虽然每次生成视频可能需要4-5分钟，但考虑到其能够生成21秒的视频，这样的等待是值得的。

未来展望及开源继续

数据缩放与模型设计将是团队下一阶段的工作重点，旨在进一步提升视频生成的质量和模型的性能。
无论未来如何发展，团队承诺将所有数据、代码和模型持续开源，以推动国产AI技术的共享与进步。

Open-Sora-Plan作为一个国产开源项目，展示了国产AI技术在视频生成领域的实力和潜力。如果大家对这个项目感兴趣，可以访问GitHub以了解更多关于Open-Sora-Plan的详细信息，或在Hugging Face上亲自试玩体验。欢迎在评论区分享您的使用经验和反馈，共同推动国产AI技术的发展。

GitHub链接：Open-Sora-Plan GitHub
Hugging Face试玩链接：Hugging Face Open-Sora-Plan v1.1.0
ReVideo模型链接：ReVideo GitHub

（本文内容根据读者的反馈进行调整，保持其原创性和信息传达的准确性，对于开源项目的支持与分享表示感谢。）

# AI快讯

文章版权归作者所有，未经允许请勿转载。