AtomoVideo – 阿里推出的高保真图像到视频生成框架

AI工具2年前 (2024)更新 niko

AtomoVideo：前沿的图像至视频生成技术

AtomoVideo，由阿里巴巴集团的研究团队精心研发，是一项创新的图像至视频（Image-to-Video, I2V）生成技术。该技术的核心目标是将静态图像转换为动态视频，同时确保视频内容的高质量和高度还原性。以下是对AtomoVideo的详细介绍：

AtomoVideo的框架通过精心设计的训练策略和高质量的数据集，实现了从静态图像到视频转换的高保真度。它在运动强度的表现和时间一致性方面，相较于其他技术如Runway Gen-2和Pika 1.0，显示出了显著的优势。

AtomoVideo具备以下几项引人注目的功能特性：

AtomoVideo的工作流程如下：

流程概览：技术基于预训练的文本到图像模型，加入新的时间卷积和注意力模块。训练时，时间层和输入层参数更新，而基础模型参数固定。
图像信息融合：通过VAE和CLIP编码器将图像信息融合到生成过程中，保证视频与输入图像的高度一致性。
视频帧预测技术：采用迭代预测方法实现长视频生成，适应GPU内存限制。
训练与推理过程：使用内部数据集进行训练，结合零终端信噪比和v-prediction策略提高稳定性。模型输入尺寸为512×512像素，视频帧数为24帧。推理阶段采用分类器自由引导，提高输出稳定性。
个性化视频生成：在训练时固定基础2D UNet参数，实现与个性化模型的结合，例如epiCRealism等，为I2V生成提供更多可能性。

AtomoVideo的这些特性和工作原理，不仅展示了其在图像至视频生成领域的先进性，也为未来的个性化和智能化视频内容创作提供了强有力的技术支持。

文章版权归作者所有，未经允许请勿转载。