阿里巴巴开源ViDoRAG，助力视觉文档理解与多模态AI发展

AI快讯1年前 (2025)发布 niko

阿里巴巴通义实验室推新成果：近日，阿里巴巴通义实验室对外宣布开源其最新力作——ViDoRAG。这是一款专门面向视觉文档理解的检索增强生成（RAG）系统，为复杂文档理解领域带来了新的曙光。

多智能体框架优势凸显 ：ViDoRAG摒弃传统单一模型架构，创新性地采用多智能体框架设计。它融合了动态迭代推理代理（DynamicIterative ReasoningAgents）和基于GMM(高斯混合模型)的混合检索技术。这种独特设计，让ViDoRAG在处理包含图像和文本的视觉文档时，对关键信息的提取与推理更为精准。通过多模态数据融合，突破了传统RAG系统仅依赖文本检索的局限。

性能实现重大突破：在 GPT-4o模型上的测试数据显示，ViDoRAG的准确率高达79.4%。相较于传统RAG系统，提升幅度超过10%。传统RAG系统在文本生成任务中表现尚可，但处理视觉文档时，因单一模态检索能力受限，准确率较低。而ViDoRAG通过深度整合视觉与文本信息，实现了准确率的大幅跃升，对于法律文件分析、医疗报告解读和企业数据处理等对文档理解精度要求极高的场景，意义非凡。

开源引发行业关注：阿里巴巴通义实验室将ViDoRAG开源的举动，在Twitter上掀起热议。用户普遍认为，这一开源举措不仅彰显了阿里在AI领域的技术底蕴，更为全球开发者和研究人员提供了珍贵资源。通过公开论文和代码，有望推动视觉文档RAG技术的研究与应用，助力多模态AI系统迈向新高度。

未来创新可期：ViDoRAG的发布与开源，为RAG技术开拓了新方向。随着视觉文档处理需求的日益增长，它或许只是创新浪潮的开端，未来或将涌现更多类似的创新系统。项目链接：https://github.com/Alibaba-NLP/ViDoRAG

# AI快讯

文章版权归作者所有，未经允许请勿转载。