SmolDocling：256M参数小模型引领多模态文档转换新变革

SmolDocling：多模态文档转换的新希望在计算机科学范畴，把结构繁杂的文档转化为规整数据，向来是个棘手难题。以往的方法，不是众多模型组合形成复杂流程，就是依赖大型多模态模型，可这些大模型存在易产生“幻觉”且成本高昂的问题。

近期，IBM与Hugging Face携手推出了SmolDocling，这是一款参数仅256M的开源视觉-语言模型（VLM），旨在端到端地处理多模态文档转换任务。

小巧却强大的SmolDoclingSmolDocling的独特优势在于其“小身材大能量”。区别于那些参数多达几十亿、几百亿的“巨型”模型，它256兆的体量如同模型界的“轻骑兵”，极大地降低了计算复杂性与资源需求。而且，它能够借助单个模型处理整个页面，简化了传统繁琐的处理流程。

SmolDocling还有“秘密武器”——DocTags。这是一种通用标记格式，能以紧凑清晰的方式精准捕捉页面元素、结构及空间上下文，就像给文档元素贴上明确“标签”，助机器理解文档逻辑。

该模型架构基于Hugging Face的SmolVLM -256M，通过优化的tokenization和激进的视觉特征压缩方法，降低了计算复杂性。其核心优势是创新的DocTags格式，能清晰分离文档布局、文本内容以及表格、公式、代码片段和图表等视觉信息。为提升训练效率，SmolDocling采用课程学习方法，先“冻结”视觉编码器，再用更丰富数据集逐步微调，增强不同文档元素间的视觉语义对齐。值得一提的是，它处理文档页面速度极快，在消费级GPU上平均每页仅需0.35秒，且显存消耗不到500MB。

小模型的大实力在性能测试中，SmolDocling实力尽显。在综合基准测试里，涉及各类文档转换任务时，它的表现显著优于众多大型竞争模型。比如在全页文档OCR任务中，相较于拥有70亿参数的Qwen2.5VL和3.5亿参数的Nougat，SmolDocling准确率更高，编辑距离（0.48）更低，F1分数(0.80)更高。

在公式转录方面，SmolDocling的F1分数达到0.95，与先进模型GOT不相上下。在代码片段识别上，它更是表现出色，精确率和召回率分别高达0.94和0.91。

复杂文档处理能手SmolDocling与其他文档OCR方案不同，它能应对文档中的复杂元素，如代码、图表、公式及各种布局。其能力不仅涵盖常见科学论文，还能可靠处理专利、表格和商业文档。

借助DocTags提供的结构化元数据，SmolDocling消除了HTML或Markdown等格式的歧义，提高了文档转换的下游可用性。其紧凑体积使其能以低资源需求进行大规模批量处理，为企业大规模部署提供经济高效方案。

总之，SmolDocling的推出是文档转换技术的重大突破，证明紧凑型模型能与大型基础模型竞争，甚至在关键任务中超越它们。研究人员通过针对性训练、创新数据增强和新型标记格式，克服了传统模型大小和复杂性带来的局限。SmolDocling的开源为OCR技术树立新标杆，也为社区贡献了宝贵资源。

# AI快讯

文章版权归作者所有，未经允许请勿转载。