IBM新推Granite-Vision-3.1-2B小型视觉语言模型助力文档理解

在人工智能技术推进进程中，视觉与文本数据的融合难题亟待解决。传统模型面对表格、图表等结构化视觉文档，自动内容提取与理解能力受限，影响了数据分析等多领域应用。在此背景下，IBM适时推出Granite-Vision-3.1-2B，一款聚焦文档理解的小型视觉语言模型。

Granite-Vision-3.1-2B功能强大，能从各类视觉格式中精准提取内容。它基于精心筛选的数据集训练，数据源于公共和合成源，可应对多种文档相关任务。作为Granite大型语言模型的升级版，该模型整合图像和文本两种模态，显著提升了解读能力，在众多实际场景中均可发挥作用。

此模型由三个关键部分构成。视觉编码器运用SigLIP高效处理和编码视觉数据；视觉语言连接器作为带有GELU激活函数的双层多层感知器，负责连接视觉与文本信息；大型语言模型基于Granite-3.1-2B-Instruct，具备128k的上下文长度，可处理复杂庞大输入。

训练时，Granite-Vision-3.1-2B借鉴LlaVA，融合多层编码器特性与AnyRes中更密集的网格分辨率。这些改进增强了模型对详细视觉内容的理解，使其在视觉文档任务中表现更精准，如分析表格图表、进行光学字符识别以及回答文档相关查询。

评估结果彰显了Granite-Vision-3.1-2B的卓越性能。在多个基准测试里，它成绩斐然，尤其在文档理解方面优势突出。在ChartQA基准测试中得分0.86，超越同参数范围模型；在TextVQA基准测试中得0.76，展现出解析和回答图像中文本信息的强大实力，凸显其在企业应用中处理精确视觉和文本数据的潜力。

IBM的Granite-Vision-3.1-2B是视觉语言模型领域的重要进展，提供了高效的视觉文档理解方案。其架构和训练方法使其能有效解析复杂视觉和文本数据。因对变换器和vLLM的原生支持，该模型可适应多种用例，能在云环境中部署，为研究人员和专业人士增强AI驱动文档处理能力提供实用工具。模型链接：https://huggingface.co/ibm-granite/granite-vision-3.1-2b-preview 。

# AI快讯

文章版权归作者所有，未经允许请勿转载。

IBM新推Granite-Vision-3.1-2B小型视觉语言模型 助力文档理解

IBM新推Granite-Vision-3.1-2B小型视觉语言模型助力文档理解