X-SAM模型革新图像分割技术,开启智能视觉新时代

AI快讯6秒前发布 niko
1 0
AiPPT - 一键生成ppt

X-SAM模型正式登场,图像分割技术迎新突破 。近期,由中山大学、鹏城实验室和美团联合开发的X-SAM图像分割模型正式发布。该多模态大模型在图像分割领域取得显著进展,将传统的“分割任意事物”能力提升至全新高度,极大增强了模型的适应性与应用范围。

创新VGS框架,突破传统SAM局限 。传统的Segment AnythingModel(SAM)虽能生成密集分割掩码,但仅支持单一视觉参考输入。为解决这一难题,研究团队提出Visual GroundedSegmentation(VGS)任务框架,借助交互式视觉参考实现所有物体的精确实例分割,赋予多模态大语言模型像素级理解能力。

多重创新设计,提升分割精度。X-SAM的技术设计融合多项创新。它采用统一的输入格式和输出表示,可处理多种视觉和文本输入。双编码器架构助力深入理解图像内容与分割特征,分割连接器实现多尺度信息融合,大幅提高分割准确性。

Mask2Former架构,打破传统限制。X-SAM集成最新的Mask2Former架构作为分割解码器,能在一次操作中同时分割多个目标对象,突破了传统SAM只能处理单个对象的局限,提高处理效率,为复杂场景下的批量分割任务创造可能。

渐进式训练,验证技术成效。在模型训练方面,研究团队采用三步渐进式训练策略,通过逐步学习确保性能稳定提升。经20多个主要分割数据集综合测试,X-SAM在分割对话生成和文本图像理解任务中表现出色,验证了其技术方案的有效性。

指明发展方向,推动多领域应用。X-SAM的推出为图像分割技术发展指明新方向,为构建更智能的通用视觉理解系统奠定重要技术基础。研究团队下一步将深入探索该技术在视频领域的应用,推动图像和视频分割统一发展,拓展机器视觉理解能力边界。这一科研成果学术意义重大,在自动驾驶、医学影像和工业检测等实际应用中潜力巨大,有望加速计算机视觉领域整体发展。

论文地址:https://arxiv.org/pdf/2508.04655

代码地址:https://github.com/wanghao9610/X-SAM

演示地址:https://47.115.200.157:7861

© 版权声明
Trea - 国内首个原生AI IDE