MIMO

「MIMO」是什么

MIMO是一款通用的可控视频合成模型，能够在复杂运动与物体交互场景中，模仿任何人。仅需提供一张参考图像，通过几分钟的推理，它就能合成可动画化的虚拟角色形象。该模型旨在解决角色视频合成领域的难题，为用户提供在角色、运动、场景等方面具备可控性的视频合成体验。

功能解析

任意角色控制：支持从单张图像生成人类、卡通或拟人化角色的动画。通过输入特定的角色图像，模型能对角色的特征进行提取和分析，进而在不同场景中赋予其动态表现。
新型3D运动控制：可以实现来自真实视频中的复杂运动以及数据库中的空间3D运动模拟。模型对输入的运动数据进行解析，将其转化为可控制角色动作的指令，实现多样化的运动效果。
交互式场景控制：能处理带有物体交互和遮挡的复杂现实场景。借助对场景的空间分析和处理，模型可以生成符合真实物理规律和视觉效果的视频内容。

产品特色

空间分解建模：将2D视频编码为紧凑的空间代码，利用单目深度估计器将2D帧像素提升到3D，并基于3D深度将视频片段分层分解为主要人物、底层场景和浮动遮挡三个空间组件。这种独特的技术实现了灵活的用户控制、空间运动表达以及3D感知的场景交互合成。
多属性可控：用户可通过简单输入分别提供所需的角色、运动和场景等属性，或者直接输入驱动视频。模型将目标属性嵌入潜在空间构建目标代码，并对驱动视频进行空间感知分解编码为空间代码，从而实现对合成的直观属性控制。相比传统方法，在角色泛化性、姿态通用性和场景交互性上具有明显优势。

应用场景

影视创作场景：影视创作者在制作特效镜头时，往往需要快速生成特定角色在复杂场景中的动画。例如在拍摄科幻电影时，需要创造外星生物在各种环境中的动态画面。MIMO能够根据创作者提供的外星生物形象图片、动作序列以及场景视频，快速合成符合要求的视频片段，解决了传统方法中多视角捕捉和特定训练的局限，大大提高了创作效率。
游戏开发场景：游戏开发者在设计角色动画和场景交互时面临诸多挑战。比如在开放世界游戏中，角色需要在不同场景与各种物体进行交互。MIMO可以根据游戏美术设计的角色概念图、动作库中的动作以及场景模型，合成高质量的角色动画，满足游戏中多样化的交互需求，提升游戏的视觉效果和沉浸感。

技术原理解析

MIMO的核心技术在于空间分解建模。它先利用单目深度估计器将2D帧像素提升到3D，基于3D深度将视频片段分层分解为主要人物、底层场景和浮动遮挡三个空间组件。人物组件通过规范外观转移和结构化身体代码进一步解耦为身份和运动属性，并编码为身份代码\mathcal{C}{id}<\inline_LaTeX_Formula>和运动代码\mathcal{C}{mo}<\inline_LaTeX_Formula>。场景和遮挡组件通过共享的VAE编码器嵌入并重组为完整场景代码\mathcal{C}_{so}<\inline_LaTeX_Formula>。这些潜在代码作为条件插入基于扩散的解码器中进行视频重建。

使用指南

用户首先准备好所需的输入内容，如用于角色的单张图像、用于运动的姿势序列或视频、用于场景的单张视频或图像。然后将这些输入按照指定格式输入到MIMO模型中。模型会自动将目标属性嵌入潜在空间构建目标代码，并对驱动视频进行空间感知分解编码为空间代码。最后，通过在特定顺序下自由整合潜在代码，即可实现对合成视频的属性控制，完成视频合成。