大语言模型信息检索难题：前摄干扰与工作记忆瓶颈

AI快讯5个月前发布 niko

44 0 0

大语言模型（LLM）在信息检索方面存在显著问题，其上下文检索存在局限，难以区分新旧记忆。弗吉尼亚大学和纽约大学神经科学中心的研究人员，借用心理学的「前摄干扰」概念开展研究。

测验设计与发现 ：研究团队设计了Pi – LLM测验，给模型输入一组语义相关的「键key—值value」配对并不断更新，最后询问某个key对应的最新value。结果显示，随着干扰项增加，模型正确率以对数速度下降，错误主要源于将旧value当成新答案，提示工程效果有限，表明LLM存在「工作记忆瓶颈」。
实验结果分析 ：所有主流LLM在检索最新数值时都有显著错误，准确率呈对数线性下降，最终降至0%，产生幻觉且无法给出正确答案。这种衰减模式不受模型架构、规模和训练资源差异影响，暗示问题根源在基础层面。与人类相比，LLM难以忽略旧信息，类似有限工作记忆容量行为模式。
现象解读与原因 ：大模型「Unable to Forget」，即使有自然语言干预，也无法显著改善表现，说明需对模型架构或训练范式进行根本性调整。错误分析表明，LLM失败受反复更新影响，错误呈阶段性演变。此外，「自上而下」的prompt提示和CoT模型均无法有效提升模型抗干扰能力，问题触及架构或训练根本。
干扰因素研究 ：研究定量证明「干扰」是影响模型性能的核心独立变量，而非输入文本长度。模型抗干扰容量不足是任务失败的核心驱动因素之一，这对认知科学研究也有启示，表明LLM缺乏人类的Top – Down控制能力，提升该能力对其在多领域的应用至关重要。

该研究论文已被ICML 2025 WorkShop on Long Context FoundationModels接收，为解决大语言模型信息检索问题提供了新视角。

# AI快讯

文章版权归作者所有，未经允许请勿转载。