X-SAM模型革新图像分割技术，开启智能视觉新时代

X-SAM模型正式登场，图像分割技术迎新突破 。近期，由中山大学、鹏城实验室和美团联合开发的X-SAM图像分割模型正式发布。该多模态大模型在图像分割领域取得显著进展，将传统的“分割任意事物”能力提升至全新高度，极大增强了模型的适应性与应用范围。

创新VGS框架，突破传统SAM局限 。传统的Segment AnythingModel（SAM）虽能生成密集分割掩码，但仅支持单一视觉参考输入。为解决这一难题，研究团队提出Visual GroundedSegmentation（VGS）任务框架，借助交互式视觉参考实现所有物体的精确实例分割，赋予多模态大语言模型像素级理解能力。

多重创新设计，提升分割精度。X-SAM的技术设计融合多项创新。它采用统一的输入格式和输出表示，可处理多种视觉和文本输入。双编码器架构助力深入理解图像内容与分割特征，分割连接器实现多尺度信息融合，大幅提高分割准确性。

Mask2Former架构，打破传统限制。X-SAM集成最新的Mask2Former架构作为分割解码器，能在一次操作中同时分割多个目标对象，突破了传统SAM只能处理单个对象的局限，提高处理效率，为复杂场景下的批量分割任务创造可能。

渐进式训练，验证技术成效。在模型训练方面，研究团队采用三步渐进式训练策略，通过逐步学习确保性能稳定提升。经20多个主要分割数据集综合测试，X-SAM在分割对话生成和文本图像理解任务中表现出色，验证了其技术方案的有效性。

指明发展方向，推动多领域应用。X-SAM的推出为图像分割技术发展指明新方向，为构建更智能的通用视觉理解系统奠定重要技术基础。研究团队下一步将深入探索该技术在视频领域的应用，推动图像和视频分割统一发展，拓展机器视觉理解能力边界。这一科研成果学术意义重大，在自动驾驶、医学影像和工业检测等实际应用中潜力巨大，有望加速计算机视觉领域整体发展。

论文地址：https://arxiv.org/pdf/2508.04655

代码地址：https://github.com/wanghao9610/X-SAM

演示地址：https://47.115.200.157:7861

# AI快讯

文章版权归作者所有，未经允许请勿转载。