RAG系统中文档数量对语言模型性能的影响

AI快讯3周前发布 niko
0 0
AiPPT - 一键生成ppt

耶路撒冷希伯来大学的研究人员近期有新发现,在检索增强生成(Retrieval AugmentedGeneration,简称RAG)系统里,即便文本总长度保持不变,所处理的文档数量也会对语言模型的性能产生重大影响。

研究团队以MuSiQue验证数据集中的2417个问题展开实验,每个问题都关联着20个维基百科段落。其中2到4个段落包含相关答案信息,其余则作为干扰项。为探究文档数量的影响,团队创建了多个数据分区,将文档数量从20个逐步减少至仅2- 4个包含相关信息的文档。为保证总词元数一致,研究人员利用原始维基百科文章中的文本对保留的文档进行了扩展。

实验结果显示,在多数情形下,减少文档数量能使语言模型的性能提升约10%。此次研究测试了多个开源模型,如LLaMA-3.1、Qwen2和Gemma2。值得注意的是,Qwen2模型是个例外,其性能在文档数量变化时保持相对稳定,而Llama-3.1和Gemma-2的性能则会随着文档数量的增加而显著下降。

当仅提供包含支持信息的文档时,所有模型的性能都有显著提升。这表明在RAG系统中常见的相似但无关的文档会干扰模型,降低其性能。有趣的是,模型在面对明显无关的随机文档时表现更好,这意味着它们更善于识别和过滤掉明显不相关的内容。

研究人员强调,在设计检索系统时,需要在相关性和多样性之间寻求平衡,以减轻信息冲突。他们也承认该研究存在一些局限,比如未分析提示变化和数据顺序的影响。团队已公开发布数据集,以推动该领域的进一步研究。

© 版权声明
Trea - 国内首个原生AI IDE