国产开源视频生成模型Open-Sora-Plan更新:全面提升视频质量和制作效率

AI快讯5个月前发布 niko
9 0 0

备受瞩目的国产开源视频生成模型Open-Sora-Plan近日发布了重大更新,版本v1.1.0现在已经可以生成长达21秒的视频内容。继之前支持生成16秒、720p分辨率的视频之后,这次的更新使得视频生成的质量和效率都有了显著提升,并且完全支持国产AI算力芯片。这个项目由北大-兔展联合团队共同开发,所有的数据、代码和模型都已开源,供人们自由学习与使用。

版本迭代亮点

版本v1.1.0的主要改进包括:
– 采用更高质量的视觉数据与caption,这使得生成的视频在视觉呈现上更为丰富和细腻。
– 基于国产AI计算系统(如华为昇腾)完成了训练和推理,充分展现了国产AI芯片的强大性能。
– 运用了优化后的CausalVideoVAE结构,极大地提高了模型的推理效率和视频生成性能。

技术细节分析

一、模型结构优化

  • CausalVideoVAE架构:通过减少CausalConv3D的数量并引入卷积权重,优化了模型结构,使得编码效率大为提高。
  • 训练策略:通过多阶段的级联训练方法,在不同阶段采用不同的训练帧数,表现出模型对更多细节的捕捉能力。
  • 损失函数改进:通过运用GAN Loss和3D GAN的改进,模型能够更好地保留高频信息,缓解了网格效应。

二、视觉数据与caption的合作优化

  • 在对图片和视频的收集过程中,运用了多种数据集,并采用LLaVA、ShareGPT4Video等工具生成高质量的captions,使得模型能够得到更为全面的学习和理解。

使用体验分享

经过一系列的优化和迭代,Open-Sora-Plan v1.1.0版本在视频生成的质量和效率上都有显著提升。用户可以在Hugging Face平台上试玩最新版本,并体验视频生成的全过程。虽然每次生成视频可能需要4-5分钟,但考虑到其能够生成21秒的视频,这样的等待是值得的。

未来展望及开源继续

  • 数据缩放模型设计将是团队下一阶段的工作重点,旨在进一步提升视频生成的质量和模型的性能。
  • 无论未来如何发展,团队承诺将所有数据、代码和模型持续开源,以推动国产AI技术的共享与进步。

Open-Sora-Plan作为一个国产开源项目,展示了国产AI技术在视频生成领域的实力和潜力。如果大家对这个项目感兴趣,可以访问GitHub以了解更多关于Open-Sora-Plan的详细信息,或在Hugging Face上亲自试玩体验。欢迎在评论区分享您的使用经验和反馈,共同推动国产AI技术的发展。

GitHub链接Open-Sora-Plan GitHub
Hugging Face试玩链接Hugging Face Open-Sora-Plan v1.1.0
ReVideo模型链接ReVideo GitHub

(本文内容根据读者的反馈进行调整,保持其原创性和信息传达的准确性,对于开源项目的支持与分享表示感谢。)

© 版权声明

相关文章

暂无评论

暂无评论...