「CineMaster」是什么
CineMaster是一个全新的3D感知与可控文本到视频生成框架。它致力于赋予用户与专业电影导演相媲美的可控能力,能在场景中精准放置物体,在3D空间灵活操控物体与相机,还能直观控制渲染画面布局,助力创作高质量影视视频。
功能解析
- 3D空间交互构建条件信号:用户能在3D空间里,通过定位物体边界框、定义相机运动轨迹,直观构建3D感知条件信号。比如在创作科幻场景时,可轻松确定宇宙飞船的位置及飞行轨迹。
- 控制信号引导视频生成:渲染的深度图、相机轨迹和物体类别标签等控制信号,能引导文本到视频扩散模型,生成符合用户预期的视频内容。
产品特色
- 独特的两阶段运作模式:先让用户以原生3D方式直观操控物体与相机,再将控制信号输入文本到视频扩散模型,这一创新模式是其他产品所没有的。相比传统方法,能让用户更精准地把控视频生成。
- 创新的语义布局控制网络设计:Semantic Layout ControlNet由语义注入器和基于DiT的ControlNet构成,能融合3D空间布局和类别标签条件,实现对物体运动和相机运动的联合控制,提升生成效果。
- 自动化数据标注流程:精心建立的自动化数据标注流程,可从大规模视频数据中提取3D边界框、相机轨迹等控制信号,解决了相关数据集稀缺的问题。
应用场景
- 影视创作场景:影视创作者在构思奇幻题材作品时,常面临难以将脑海中复杂的3D场景转化为视频画面的问题。CineMaster能让他们在3D空间中精准设定魔法生物的飞行轨迹、城堡的位置等,轻松创作出如魔法生物在神秘城堡上空盘旋的震撼画面。
- 广告制作场景:广告设计师在制作汽车广告时,想要展示汽车在不同场景中的动态美感。利用CineMaster,可在3D空间里调整相机围绕汽车的运动轨迹,设定汽车的行驶路线,生成如汽车在壮丽的海边公路上飞驰的吸睛广告视频。
技术原理解析
CineMaster由两个阶段组成。第一阶段,用户能以交互方式在3D空间直观操控物体和相机;第二阶段,从3D引擎渲染出的控制信号被输入文本到视频扩散模型,引导生成预期视频内容。其网络架构设计了Semantic Layout ControlNet,语义注入器融合3D空间布局和类别标签条件,基于DiT的ControlNet进一步处理融合特征并添加到基础模型隐藏状态,同时通过相机适配器注入相机轨迹,实现物体运动和相机运动的联合控制。数据标注流程包含实例分割、深度估计、3D点云和边界框计算、实体跟踪和3D边界框调整四个步骤,从视频中提取3D边界框、类别标签和相机姿态等信号。
使用指南
首先,用户在3D空间中定位物体边界框,定义相机运动轨迹,构建3D感知条件信号。接着,系统从3D引擎渲染出控制信号,将其输入文本到视频扩散模型。最后,模型依据这些信号生成符合用户预期的视频内容。