X-SAM多模态大模型发布,引领图像分割新变革
近期,中山大学、鹏城实验室和美团携手推出了名为X-SAM的新型多模态图像分割大模型,这一成果在图像分割技术领域引发了重大突破。该模型不仅提升了图像分割的精准度,更实现了从‘分割一切’到‘任意分割’的关键跨越。
创新设计理念,适配多元需求
X-SAM的核心亮点在于其创新的设计思路。它率先引入统一的输入输出格式,以满足不同的分割需求。用户既可以通过文本查询开展常规分割任务,也能借助点或涂鸦等视觉线索进行交互式分割。同时,模型采用统一的输出表示,有效提升了分割结果的可解释性。
双编码器架构,强化分割性能
为提升分割效果,X-SAM采用双编码器架构。一个编码器负责提取全局特征,另一个专注于细粒度特征,这种设计增强了模型对图像的理解能力,确保了精准分割。此外,模型引入分割连接器和统一分割解码器,前者处理多尺度特征,后者取代传统解码器架构,进一步优化了分割性能。
三阶段训练,展现卓越能力
X-SAM的训练过程分为三个阶段。第一阶段进行分割细化,增强模型的基础分割能力;第二阶段开展对齐预训练,使语言和视觉嵌入对齐;第三阶段进行混合微调,通过多数据集协同训练优化模型整体性能。实验结果显示,X-SAM在超20个分割数据集上达到了先进水平,彰显了其出色的多模态视觉理解能力。
拓展视频领域,开启未来新篇
随着X-SAM的发布,研究团队期望未来将其应用拓展至视频领域,结合时间信息推动视频理解技术发展。这一新型模型的成功,不仅为图像分割研究开辟了新方向,也为构建更通用的视觉理解系统奠定了基础。
相关代码可访问:https://github.com/wanghao9610/X-SAM;演示地址为:https://47.115.200.157:7861
© 版权声明
文章版权归作者所有,未经允许请勿转载。