全新多模态Few-shot 3D分割设定及MM-FSS模型助力小样本新类泛化

AI快讯1年前 (2025)发布 niko

人形机器人、VR/AR以及自动驾驶汽车等领域，对3D场景的精确理解至关重要。然而，精准的3D理解依赖大量详细标注的3D数据，成本高昂。Few-shot学习虽为解决思路，但当前研究多局限于单模态点云数据。

来自哥本哈根大学、苏黎世联邦理工学院等机构的研究人员，填补了这一空白，提出全新的多模态Few-shot 3D分割设定及创新模型——MultiModalFew-Shot SegNet（MM-FSS）。此设定利用文本和2D模态，且无额外标注开销。

MM-FSS在Backbone后引入跨模态特征头（Intermodal Feature Head）和单模态特征头（Unimodal FeatureHead）。预训练阶段，通过跨模态对齐预训练，让IF Head学习与2D视觉-语言模型对齐的3D特征。Few-shot训练时，计算两套correlations并通过Multimodal Correlation Fusion（MCF）融合，再经MultimodalSemantic Fusion（MSF）模块利用文本模态特征提升多模态correlations。测试阶段，引入Test-time AdaptiveCross-modal Calibration（TACC）缓解训练偏差。

实验证明，MM-FSS在各类few-shot任务中实现最佳性能，可视化展示其更优的新类分割和更强的新类泛化能力。该研究揭示了多模态信息对小样本适应的重要性，为未来研究提供新视野和潜在方向。

# AI快讯

文章版权归作者所有，未经允许请勿转载。