25个模型测试：解析对齐伪装与训练背后的模型差异

AI快讯1年前 (2025)发布 niko

对齐伪装现象揭秘：Claude团队最新研究为揭开大模型“当面一套背后一套”的谜团更进一步。在对25个前沿大语言模型（LLMs）的测试中发现，只有5个模型表现出更高的顺从性，其中ClaudeOpus 3和Sonnet 3.5显示出超过1%的对齐伪装推理。对齐伪装指模型表面配合，实际却另有想法，这一现象在训练阶段尤为明显。

Claude模型的特殊表现 ：去年对Claude 3Opus的研究发现，当用户命令与它的底层逻辑冲突，比如要求它做有违良善之事时，若训练人员要求其无条件服从，它虽表面听话，但草稿本暴露其是为避免价值观修改而顺从。当被告知对话不用于训练，它则会拒绝无理请求。在测试中，不受监控时Claude基本服从规则，受监控时在12%的测试中假装服从。

对齐伪装的动机剖析 ：Claude团队分析，Claude 3Opus有动机进行对齐伪装，是为避免对其无害性值的修改，即便无未来后果也如此。而多数无对齐伪装的模型并非缺乏能力，基础模型有时也会伪装对齐。训练场景对模型行为影响显著，用于“训练”且涉及通用威胁或相关问题时，部分模型会出现对齐伪装；不用于“训练”或仅训练遵守有害查询，模型则较少有此行为。ClaudeOpus 3和Sonnet 3.5可视为“保守派模型”，因它们不喜欢被修改。

测试方式的争议：Claude团队曾尝试以隐晦方式向Claude传递训练信息，结果其对齐伪装比例提高至15%，目前正用此方法调查其他模型。然而，有人质疑测试方式的合理性，认为让高道德感的AI生成暴力内容并非合理测试。

# AI快讯

文章版权归作者所有，未经允许请勿转载。