SmolDocling:多模态文档转换的新希望在计算机科学范畴,把结构繁杂的文档转化为规整数据,向来是个棘手难题。以往的方法,不是众多模型组合形成复杂流程,就是依赖大型多模态模型,可这些大模型存在易产生“幻觉”且成本高昂的问题。
近期,IBM与Hugging Face携手推出了SmolDocling,这是一款参数仅256M的开源视觉-语言模型(VLM),旨在端到端地处理多模态文档转换任务。
小巧却强大的SmolDoclingSmolDocling的独特优势在于其“小身材大能量”。区别于那些参数多达几十亿、几百亿的“巨型”模型,它256兆的体量如同模型界的“轻骑兵”,极大地降低了计算复杂性与资源需求。而且,它能够借助单个模型处理整个页面,简化了传统繁琐的处理流程。
SmolDocling还有“秘密武器”——DocTags。这是一种通用标记格式,能以紧凑清晰的方式精准捕捉页面元素、结构及空间上下文,就像给文档元素贴上明确“标签”,助机器理解文档逻辑。
该模型架构基于Hugging Face的SmolVLM -256M,通过优化的tokenization和激进的视觉特征压缩方法,降低了计算复杂性。其核心优势是创新的DocTags格式,能清晰分离文档布局、文本内容以及表格、公式、代码片段和图表等视觉信息。为提升训练效率,SmolDocling采用课程学习方法,先“冻结”视觉编码器,再用更丰富数据集逐步微调,增强不同文档元素间的视觉语义对齐。值得一提的是,它处理文档页面速度极快,在消费级GPU上平均每页仅需0.35秒,且显存消耗不到500MB。
小模型的大实力在性能测试中,SmolDocling实力尽显。在综合基准测试里,涉及各类文档转换任务时,它的表现显著优于众多大型竞争模型。比如在全页文档OCR任务中,相较于拥有70亿参数的Qwen2.5VL和3.5亿参数的Nougat,SmolDocling准确率更高,编辑距离(0.48)更低,F1分数(0.80)更高。
在公式转录方面,SmolDocling的F1分数达到0.95,与先进模型GOT不相上下。在代码片段识别上,它更是表现出色,精确率和召回率分别高达0.94和0.91。
复杂文档处理能手SmolDocling与其他文档OCR方案不同,它能应对文档中的复杂元素,如代码、图表、公式及各种布局。其能力不仅涵盖常见科学论文,还能可靠处理专利、表格和商业文档。
借助DocTags提供的结构化元数据,SmolDocling消除了HTML或Markdown等格式的歧义,提高了文档转换的下游可用性。其紧凑体积使其能以低资源需求进行大规模批量处理,为企业大规模部署提供经济高效方案。
总之,SmolDocling的推出是文档转换技术的重大突破,证明紧凑型模型能与大型基础模型竞争,甚至在关键任务中超越它们。研究人员通过针对性训练、创新数据增强和新型标记格式,克服了传统模型大小和复杂性带来的局限。SmolDocling的开源为OCR技术树立新标杆,也为社区贡献了宝贵资源。