Describe Anything Model(DAM)由英伟达携手UC伯克利、UCSF团队推出,这是首个神级多模态模型,仅需3B参数。该模型专门为详细局部标注(DLC)打造,无论上传图片还是视频,圈选指定区域,它都能生成详细文字描述。
DAM的厉害之处源于两大核心创新。焦点提示机制如同给模型配备「放大镜」,能对目标区域进行高分辨率编码,在捕捉细微特征时不丢失整体场景背景信息;局部视觉骨干网络则将特定区域与上下文无缝整合,通过空间对齐的图像和掩码,融合全局与局部特征,生成的描述更丰富、更具上下文关联。
为解决高质量DLC数据集稀缺问题,研究团队设计了基于半监督学习的流水线DLC – SDP。先从分割数据集扩展,利用现有短标签生成丰富描述;再自训练未标记图像,迭代精炼形成高质量DLC数据。
在评估标准方面,传统方法有局限,研究团队提出全新基准DLC – Bench ,通过LLM判断描述的正确细节和错误缺失,更全面地评估DLC模型。
DAM不仅能生成详细描述,还具备灵活性和交互性。用户可根据需求调整描述详细程度和风格,进行指令控制描述;无需额外训练,就能实现零样本区域问答 。
在多项基准测试中,DAM全面超越现有模型。在DLC -Bench和其他7个涵盖图像与视频的测试中表现出色,如在PACO基准测试中获89分,在零样本评估的多个数据集上实现显著提升,刷新了SOTA。
DAM优势显著,描述更详细准确、更少幻觉且适用于多场景,为数据标注、医疗影像、内容创作等领域的应用加速落地提供了可能。
© 版权声明
文章版权归作者所有,未经允许请勿转载。