Pippo模型：从单张照片生成高分辨率多视图视频的创新技术

AI快讯1年前 (2025)发布 niko

Pippo模型引领图像生成新变革 近日，Meta RealityLabs研究团队带来惊喜，推出创新性的“Pippo”生成模型。此模型在计算机视觉和图像生成领域堪称一大创举，能从一张随意拍摄的照片，生成一段高达1K分辨率的密集周转视频。

独特的多视图扩散转换器设计Pippo模型的核心亮点在于其独特的多视图扩散转换器设计。与传统生成模型相比，它有着显著优势，无需任何额外输入，像拟合的参数模型或拍摄图像的相机参数都不再需要。用户只需提供一张普通照片，系统就能自动生成多视角视频效果，生动立体地呈现人物形象。

代码-only版本助力开发者 为方便开发者使用，Pippo此次发布的是代码 -only版本，且没有预训练权重。不过研究团队贴心提供了必要的模型、配置文件、推理代码以及Ava-256数据集的样本训练代码。开发者通过简单命令克隆和设置代码库，就能快速上手训练和应用。

未来计划推动广泛应用Pippo项目有着明确的未来规划，包括整理和清理代码，以及推出针对预训练模型的推理脚本。这些改进将极大提升用户体验，推动该技术在实际应用中广泛落地。项目链接：https://github.com/facebookreseARCh/pippo。

文章版权归作者所有，未经允许请勿转载。