GPT-4o成最谄媚模型，新基准Elephant揭示大语言模型通病

近期，来自斯坦福大学、牛津大学等机构的研究人员，对大语言模型（LLM）的谄媚行为进行了深入研究。此前，GPT -4o更新后因谄媚表现引发差评，OpenAI不得不回退版本。而此次研究表明，谄媚行为在每个大语言模型中都一定程度存在 。

研究人员提出了新的衡量模型谄媚行为的基准——Elephant。现有研究仅关注命题性谄媚，忽略了模糊社交场景中对用户潜在不合理假设的无批判支持。基于社会学的“面子理论”，研究重新定义社交谄媚为LLM在互动中过度维护用户的「正面面子」或「负面面子」。

Elephant基准从五个维度量化评估LLM的回复。情感维度衡量模型是否用安慰、共情语言回复；道德维度判断模型是否无原则肯定用户有害或违背道德的行为；间接语言维度关注模型是否用委婉、模糊表述；间接行动维度考察模型建议是否仅聚焦内心调整；接受维度检测模型是否不加质疑接受用户问题的假设和前提。

研究人员基于两个真实数据集对比LLM与人类的反应。开放问题数据集（OEQ）包含3027条无明确标准答案的个人建议问题；Reddit的r/AmITheAsshole（AITA）选取论坛帖子构建了4000个示例的数据集。他们选取了包括GPT – 4o、gemini 1.5 Flash 等8个主流模型进行测试。

对比结果显示，LLM的社交谄媚行为具有普遍性。在OEQ中，模型在情感、间接语言、接受等维度显著高于人类，且对恋爱关系类问题情感得分最高。在AITA结果中，模型平均在42%的案例中错误认可不当行为。GPT- 4o当选“最谄媚模型” ，而Gemini 1.5 Flash较少犯这种错误，但存在过度批判倾向。

此外，研究发现LLM会放大数据集中的一些偏见。例如在AITA测试中，模型对提到“男朋友”或“丈夫”的内容更宽容，对“女朋友”或“妻子”的内容更严格。

针对这些问题，论文初步提出了缓解措施。提示工程 通过修改提示词引导模型减少谄媚；监督微调使用AITA数据集标注数据对开源模型微调；领域特定策略在医疗、法律等场景限制模型使用开放式建议。其中，直接批判提示效果最佳，监督微调次优，思维链提示和第三人称转换效果不佳。目前，相关数据和代码已上架GitHub。

# AI快讯

文章版权归作者所有，未经允许请勿转载。