技术创新团队的最新成果,Edify 3D,凭借其对用户简单文本提示或者图像的解析能力,已经成功实现直接生成4K级别的3D实体与场景,为游戏和影视设计行业带来了全新的人工智能动力。
对于那些想要创造出自己的虚拟世界,但又不愿投身学习庞杂的3D建模技术的用户来说,Edify 3D的出现无疑是一大福音。你只需有一个好想法,随后简单地描述出来,Edify 3D就能将其刻画成细节丰满的3D模型,甚至能够制作出类似于经典影视里的小黄人。
查看官方演示视频,可以看到用户仅仅通过文字描述,Edify 3D便能迅速生成精致的3D场景和各类实体,如生动的头骨、乌龟等模型。
传统的3D内容创建,因所需的专业技术和深入知识而变得十分稀缺,这样的稀缺性催生了对于设计高效率模型,以便从相关数据中生产出高品质3D资产的研究问题。Edify 3D通过最多2分钟的文字描述或前景图像分析,即可创作出包含精细几何图形、清晰形状拓扑、有序UV映射、4K级纹理以及基于物理的材质渲染的3D资产。其生成的3D形状和纹理的卓越质量,不仅在效果上优越,同时也在效率与可扩展性上实现了突破。
Edify 3D的工作流程是,首先基于3D实体对象的文字描述,生成多视图RGB外观。然后,这些RGB图像通过多视图ControlNet合成表面法线的条件。紧接着,重建模型将RGB和正常图像输入,并预测神经3D表示。最后,通过等值面提取和网格后处理,以获得网格几何,并提高纹理分辨率。
多视图扩散模型
多视图图像创建类似于视频生成。在模型系统中,文本提示和相机姿态被用作输入,以合成不同视角下的对象外观。这些模型将经过微调以感知摄像机姿势,从而从多视点合成对象的外观。
跨视图注意力
在模型训练过程中,研究者培育了如下几个模型:
– 多视图扩散模型,基于输入文本提示合成RGB外观及相机姿态;
– 多视图ControlNet模型,根据多视图RGB合成和文本提示合成物体表面法线;
– 多视图上采样控制网络,主要用于提升图像分辨率。
研究者以Edify Image作为基础扩散模型架构,并结合了一个参数达到27亿的U-Net来执行像素级别的扩散操作。通过一种新机制使得自注意力层能够关注不同的视图,并将相机姿态(旋转和平移)编码后添加到模型之中。
视图数量扩展的实验
在训练过程中,针对每个训练对象,研究者尝试了1、4以及8个视图的不同抽样比例。虽然可以在推理阶段采样任意数量的视图,但将训练视图的数量与推理过程中预期的视图数量保持一致,可以更好地缩小训练和推理性能之间的差距。通过比较在不同数量视图(4视图与8视图)上训练的模型,发现后者生成的图像更为自然,且视图间的一致性更强。
重建模型
摄影测量作为从图像观测中提取3D结构的技术,已被广泛应用于各种3D重建任务中。研究人员使用基于Transformer的重建模型,从多视图图像生产3D网格几何、纹理和材质图。由于Transformer表现出强大的泛化能力,其合成输出包括从未见过的物体图像。
通过仅解码器的Transformer模型,并采用三平面作为潜在的3D表示来处理输入的RGB和法线图像。同时,利用交叉注意力层标记三平面标记,并预测为SDF和PBR属性所使用的神经网络场,该场支持基于SDF的体积渲染。这样的处理方式使得神经网络SDF转成3D网格,而PBR属性则通过UV映射可供烘焙到纹理和材质图中。
研究团队通过大规模图像和3D资产数据训练模型,并在多个深度监督通道中输出艺术家生成的网格渲染。由于表面法线的计算代价相对较高,研究者决定只在表面计算法线并进行真实监督。
结果方面,通过输入的文本提示和渲染,Edify 3D生成的3D模型包含了详细的几何形状和清晰的纹理,具有良好分解的反射颜色,适用于各种下游编辑和渲染应用。特别是对于图像到3D的应用,它不仅能够准确地恢复参考对象的底层3D结构,而且还能在输入图像中未直接观察到的表面区域生成详尽的纹理。
Edify 3D生成的资产呈现为易于操作和调整的四边形网格拓扑形式,非常适合各种下游编辑任务和渲染应用。这种拓扑网格的有序结构使得这些资产能够无缝集成到需要视觉真实性和灵活性的3D工作流程中。总体来看,Edify 3D是一个高质量3D资产生成的创新工具,致力于推动3D资产自动化生成工具的发展,让3D内容创作变得更加容易。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
暂无评论...