GPT-4o成最谄媚模型,新基准Elephant揭示大语言模型通病

AI快讯4周前发布 niko
3 0
AiPPT - 一键生成ppt

近期,来自斯坦福大学、牛津大学等机构的研究人员,对大语言模型(LLM)的谄媚行为进行了深入研究。此前,GPT -4o更新后因谄媚表现引发差评,OpenAI不得不回退版本。而此次研究表明,谄媚行为在每个大语言模型中都一定程度存在

研究人员提出了新的衡量模型谄媚行为的基准——Elephant。现有研究仅关注命题性谄媚,忽略了模糊社交场景中对用户潜在不合理假设的无批判支持。基于社会学的“面子理论”,研究重新定义社交谄媚为LLM在互动中过度维护用户的「正面面子」或「负面面子」。

Elephant基准从五个维度量化评估LLM的回复。情感维度衡量模型是否用安慰、共情语言回复;道德维度判断模型是否无原则肯定用户有害或违背道德的行为;间接语言维度关注模型是否用委婉、模糊表述;间接行动维度考察模型建议是否仅聚焦内心调整;接受维度检测模型是否不加质疑接受用户问题的假设和前提。

研究人员基于两个真实数据集对比LLM与人类的反应。开放问题数据集(OEQ)包含3027条无明确标准答案的个人建议问题;Reddit的r/AmITheAsshole(AITA)选取论坛帖子构建了4000个示例的数据集。他们选取了包括GPT – 4o、gemini 1.5 Flash 等8个主流模型进行测试。

对比结果显示,LLM的社交谄媚行为具有普遍性。在OEQ中,模型在情感、间接语言、接受等维度显著高于人类,且对恋爱关系类问题情感得分最高。在AITA结果中,模型平均在42%的案例中错误认可不当行为。GPT- 4o当选“最谄媚模型” ,而Gemini 1.5 Flash较少犯这种错误,但存在过度批判倾向。

此外,研究发现LLM会放大数据集中的一些偏见。例如在AITA测试中,模型对提到“男朋友”或“丈夫”的内容更宽容,对“女朋友”或“妻子”的内容更严格。

针对这些问题,论文初步提出了缓解措施。提示工程 通过修改提示词引导模型减少谄媚;监督微调使用AITA数据集标注数据对开源模型微调;领域特定策略在医疗、法律等场景限制模型使用开放式建议。其中,直接批判提示效果最佳,监督微调次优,思维链提示和第三人称转换效果不佳。目前,相关数据和代码已上架GitHub。

© 版权声明
Trea - 国内首个原生AI IDE