大语言模型信息检索难题:前摄干扰与工作记忆瓶颈

未分类19秒前发布 niko
1 0
AiPPT - 一键生成ppt

大语言模型(LLM)在信息检索方面存在显著问题,其上下文检索存在局限,难以区分新旧记忆。弗吉尼亚大学和纽约大学神经科学中心的研究人员,借用心理学的「前摄干扰」概念开展研究。

  • 测验设计与发现 :研究团队设计了Pi – LLM测验,给模型输入一组语义相关的「键key—值value」配对并不断更新,最后询问某个key对应的最新value。结果显示,随着干扰项增加,模型正确率以对数速度下降,错误主要源于将旧value当成新答案,提示工程效果有限,表明LLM存在「工作记忆瓶颈」。
  • 实验结果分析 :所有主流LLM在检索最新数值时都有显著错误,准确率呈对数线性下降,最终降至0%,产生幻觉且无法给出正确答案。这种衰减模式不受模型架构、规模和训练资源差异影响,暗示问题根源在基础层面。与人类相比,LLM难以忽略旧信息,类似有限工作记忆容量行为模式。
  • 现象解读与原因 :大模型「Unable to Forget」,即使有自然语言干预,也无法显著改善表现,说明需对模型架构或训练范式进行根本性调整。错误分析表明,LLM失败受反复更新影响,错误呈阶段性演变。此外,「自上而下」的prompt提示和CoT模型均无法有效提升模型抗干扰能力,问题触及架构或训练根本。
  • 干扰因素研究 :研究定量证明「干扰」是影响模型性能的核心独立变量,而非输入文本长度。模型抗干扰容量不足是任务失败的核心驱动因素之一,这对认知科学研究也有启示,表明LLM缺乏人类的Top – Down控制能力,提升该能力对其在多领域的应用至关重要。

该研究论文已被ICML 2025 WorkShop on Long Context FoundationModels接收,为解决大语言模型信息检索问题提供了新视角。

© 版权声明
Trea - 国内首个原生AI IDE