DAM模型：以创新技术突破视觉AI新高度

Describe Anything Model（DAM）由英伟达携手UC伯克利、UCSF团队推出，这是首个神级多模态模型，仅需3B参数。该模型专门为详细局部标注（DLC）打造，无论上传图片还是视频，圈选指定区域，它都能生成详细文字描述。

DAM的厉害之处源于两大核心创新。焦点提示机制如同给模型配备「放大镜」，能对目标区域进行高分辨率编码，在捕捉细微特征时不丢失整体场景背景信息；局部视觉骨干网络则将特定区域与上下文无缝整合，通过空间对齐的图像和掩码，融合全局与局部特征，生成的描述更丰富、更具上下文关联。

为解决高质量DLC数据集稀缺问题，研究团队设计了基于半监督学习的流水线DLC – SDP。先从分割数据集扩展，利用现有短标签生成丰富描述；再自训练未标记图像，迭代精炼形成高质量DLC数据。

在评估标准方面，传统方法有局限，研究团队提出全新基准DLC – Bench ，通过LLM判断描述的正确细节和错误缺失，更全面地评估DLC模型。

DAM不仅能生成详细描述，还具备灵活性和交互性。用户可根据需求调整描述详细程度和风格，进行指令控制描述；无需额外训练，就能实现零样本区域问答 。

在多项基准测试中，DAM全面超越现有模型。在DLC -Bench和其他7个涵盖图像与视频的测试中表现出色，如在PACO基准测试中获89分，在零样本评估的多个数据集上实现显著提升，刷新了SOTA。

DAM优势显著，描述更详细准确、更少幻觉且适用于多场景，为数据标注、医疗影像、内容创作等领域的应用加速落地提供了可能。

文章版权归作者所有，未经允许请勿转载。