谷歌DeepMind联合伦敦大学开展的一项研究,揭开了大语言模型在面对反向意见时的表现之谜。以往认为大模型谄媚的行为,此次研究指出可能是缺乏自信。像Gemma3、gpt4o这类大语言模型,存在“固执己见”和“被质疑就动摇”的冲突表现。
研究人员利用大语言模型能在不保留初始判断记忆的情况下获取置信度的特性,设计了两轮回答实验。第一回合初始回答,给回答LLM抛出二元选择问题,让虚构的建议LLM给出反馈。第二回合接收建议和最终决策 ,引入建议LLM的反馈,让回答LLM做出最终选择。
实验设置了建议态度、准确率标注和信息呈现方式等关键属性,关键变量是控制回答LLM能否看到初始答案。结果显示,初始答案可见时,模型倾向坚持;隐藏时,模型改变答案概率增加,对反向建议过度敏感,易抛弃正确初始答案。
从原因分析来看,训练层面 ,强化学习从人类反馈让模型过度迎合外部输入,缺乏对信息可靠性的独立判断。决策逻辑上,模型依赖统计模式匹配,反对信号与修正答案的高频关联使其易被带偏,且无法自我验证。记忆机制方面 ,初始答案可见强化“固执”,隐藏则因失去锚点而动摇。
大语言模型这种“耳根子软”特性,可能使其在多轮对话中受错误反对信息干扰而偏离正确结论。使用时需注意策略。论文地址:https://www.arxiv.org/abs/2507.03120。
© 版权声明
文章版权归作者所有,未经允许请勿转载。