港科大(广州)与趣丸科技推出全新三维生成大模型Kiss3DGen

AI快讯3个月前发布 niko
8 0
AiPPT - 一键生成ppt

近日,港科大(广州)与趣丸科技携手,带来全新三维生成大模型——Kiss3DGen。此模型创新性地把3D生成与成熟图像生成模型进行了巧妙对齐,在3D生成领域引发关注。

Kiss3DGen一大亮点在于与主流2D扩散模型技术,如ControlNet、Flux-Redux兼容协同,具备无需额外训练即可即插即用的特性,极大提高了使用效率。

即使面对有限训练数据条件,Kiss3DGen也毫不逊色,能够生成高质量的3D资产,有效减少对大规模数据的依赖,在灵活性和性能方面表现卓越。目前,其单独使用效果已超越现有开源方法,与现有方法结合后,性能更可进一步增强。

Kiss3DGen的核心创新在于利用现有2D图像生成模型知识与框架,将多视图图像和对应法线贴图拼接成三维聚合图,成功把传统3D生成问题转化为2D图像生成任务,最大程度继承了2D模型成熟技术优势。

其具体流程主要有两大步骤。首先是三维聚合图生成,借助DiT模型全局感知能力,高效生成高度对齐的多视图图像及对应法线贴图;接着是Mesh与纹理重建,利用生成的法线贴图进行Mesh重建,并通过图像部分生成对应贴图,整个过程无需额外训练,可直接运用现有重建方法完成高质量3D资产生成。

在训练阶段,需构建高质量文本-3D数据集,运用LoRA技术对预训练的文本-图像扩散模型进行微调,以生成高度符合文本描述的三维聚合图。生成阶段则先根据输入文本提示生成三维聚合图,再通过LRM或球体初始化方法粗略重建几何和纹理,最后经网格优化与纹理投影技术精确重建3D模型的几何形状和纹理细节。

该研究作者为林坚涛、杨鑫以及陈美羲,他们来自香港科技大学(广州)ENVISION实验室。此工作由趣丸科技资助,由陈颖聪教授带领硕博研究团队与趣丸科技联合打造。陈颖聪教授在计算机视觉和视觉生成模型研究领域成果丰硕。

目前论文、代码、项目主页、在线体验及实验室主页等相关信息均已公布。论文链接:https://arxiv.org/abs/2503.01370;代码链接:https://github.com/EnVision-ReseARCh/Kiss3DGen;项目主页:https://ltt-o.github.io/Kiss3dgen.github.io;在线体验:https://gen3d.funnycp.com;实验室主页:https://envision-research.hkust-gz.edu.cn/index.html 。

© 版权声明
Trea - 国内首个原生AI IDE