RAG系统中文档数量对语言模型性能的影响

耶路撒冷希伯来大学的研究人员近期有新发现，在检索增强生成（Retrieval AugmentedGeneration，简称RAG）系统里，即便文本总长度保持不变，所处理的文档数量也会对语言模型的性能产生重大影响。

研究团队以MuSiQue验证数据集中的2417个问题展开实验，每个问题都关联着20个维基百科段落。其中2到4个段落包含相关答案信息，其余则作为干扰项。为探究文档数量的影响，团队创建了多个数据分区，将文档数量从20个逐步减少至仅2- 4个包含相关信息的文档。为保证总词元数一致，研究人员利用原始维基百科文章中的文本对保留的文档进行了扩展。

实验结果显示，在多数情形下，减少文档数量能使语言模型的性能提升约10%。此次研究测试了多个开源模型，如LLaMA-3.1、Qwen2和Gemma2。值得注意的是，Qwen2模型是个例外，其性能在文档数量变化时保持相对稳定，而Llama-3.1和Gemma-2的性能则会随着文档数量的增加而显著下降。

当仅提供包含支持信息的文档时，所有模型的性能都有显著提升。这表明在RAG系统中常见的相似但无关的文档会干扰模型，降低其性能。有趣的是，模型在面对明显无关的随机文档时表现更好，这意味着它们更善于识别和过滤掉明显不相关的内容。

研究人员强调，在设计检索系统时，需要在相关性和多样性之间寻求平衡，以减轻信息冲突。他们也承认该研究存在一些局限，比如未分析提示变化和数据顺序的影响。团队已公开发布数据集，以推动该领域的进一步研究。

# AI快讯

文章版权归作者所有，未经允许请勿转载。