全新多模态Few-shot 3D分割设定及MM-FSS模型助力小样本新类泛化

AI快讯3个月前发布 niko
11 0
AiPPT - 一键生成ppt

人形机器人、VR/AR以及自动驾驶汽车等领域,对3D场景的精确理解至关重要。然而,精准的3D理解依赖大量详细标注的3D数据,成本高昂。Few-shot学习虽为解决思路,但当前研究多局限于单模态点云数据。

来自哥本哈根大学、苏黎世联邦理工学院等机构的研究人员,填补了这一空白,提出全新的多模态Few-shot 3D分割设定及创新模型——MultiModalFew-Shot SegNet(MM-FSS)。此设定利用文本和2D模态,且无额外标注开销。

MM-FSS在Backbone后引入跨模态特征头(Intermodal Feature Head)和单模态特征头(Unimodal FeatureHead)。预训练阶段,通过跨模态对齐预训练,让IF Head学习与2D视觉-语言模型对齐的3D特征。Few-shot训练时,计算两套correlations并通过Multimodal Correlation Fusion(MCF)融合,再经MultimodalSemantic Fusion(MSF)模块利用文本模态特征提升多模态correlations。测试阶段,引入Test-time AdaptiveCross-modal Calibration(TACC)缓解训练偏差。

实验证明,MM-FSS在各类few-shot任务中实现最佳性能,可视化展示其更优的新类分割和更强的新类泛化能力。该研究揭示了多模态信息对小样本适应的重要性,为未来研究提供新视野和潜在方向。

© 版权声明
Trea - 国内首个原生AI IDE