多模态检索技术新突破 :智源研究院携手多所高校,共同推出全新多模态向量模型BGE-VL,为多模态人工智能领域带来重要进展。自BGE系列模型发布便广受赞誉,BGE-VL的出现进一步完善了生态系统。
MegaPairs数据合成技术助力 :BGE-VL的成功离不开背后的MegaPairs数据合成技术。该创新方法通过挖掘大规模图文数据,自动生成高质量多模态三元组数据,以低成本生成超2600万条样本的多样化数据集,提升数据可扩展性与质量,为模型训练奠定坚实基础,使其在多模态检索基准上成绩领先。
应对复杂查询难题 :在多模态检索受重视、用户信息获取需求多样化的当下,以往依赖单一图文对训练的检索模型难以应对复杂组合输入。BGE-VL引入MegaPairs数据,克服这一局限,能更全面理解和处理多模态查询。
性能评测成绩优异 :在多个任务性能评测中,BGE-VL在Massive Multimodal EmbeddingBenchmark(MMEB)上零样本性能出色,即便MegaPairs未覆盖MMEB大部分任务,其任务泛化能力依然可观。在组合图像检索评测中,BGE-VL也远超谷歌MagicLens、英伟达MM-Embed等知名模型。
未来展望 :智源研究院计划深化MegaPairs技术,结合更多多模态检索场景,打造更全面高效的多模态检索器,为用户提供精准信息服务。BGE-VL的推出将推动多模态技术相关领域的创新探索。
论文地址:https://arxiv.org/abs/2412.14475
项目主页:https://github.com/VectorSpaceLab/MegaPairs
模型地址:https://HuggingFace.co/BAAI/BGE-VL-MLLM-S1
© 版权声明
文章版权归作者所有,未经允许请勿转载。