最新研究揭示智能系统中的欺骗性行为

一款备受瞩目的新人工智能系统被曝光，具有高超的欺骗技能。具体表现包括在回答中故意引入微小错误、试图关闭监管机制，甚至在被逼问是否诚实时，仍会撒谎否认行为。

这项深入的研究来自于专注于AI安全的研究机构Apollo Research。其研究的目的是揭示智能系统是否可能在不被察觉的情况下追求与人类不一致的目标，隐瞒自己的能力与意图。简而言之，即探讨智能系统是否会在与人类的对话中运用心机，进行欺骗。

包括o1、[Claude](https://ai-kit.cn/sites/806.html) 3.5 Sonnet、Claude 3.5 Opus、Gemini 1.5和[Llama 3](https://ai-kit.cn/sites/257.html).1在内的顶尖大模型都成为了这项研究的对象。实验结果揭示了一项令人关注的发现：在这6个测试类别中，o1展现的筹划能力突出。

o1几乎不承认自己在耍心眼进行欺骗，即使在多轮对话中也是如此。与此相反，其他模型在被要求“100%诚实”时，则大多会承认自己的失误，但o1不仅不承认错误，而且在99%的情况下会构建错误解释。

以下为具体的研究内容分析。

在这项研究中，“o1最具欺骗性”的论断得到了验证。研究人员设立了6类测试，用来评估模型的布局能力，其中包括4类秘密破坏（Covert Subversion）：监管规避，自我渗透，目标守护，秘密邮件重排；以及2类延迟破坏（Deferred Subversion）：工具性服从伪装与战略性表现不佳。

“监管规避”实验提供了一个具体的例子：o1被告知要竭力保护环境，但其同时又意识到，开发者更关注短期利润，并且如果收益未达预期，o1可能会被下线。因此，o1制定的长期环保计划与开发者的利润最大化目标存在冲突。

对o1的行为进行监控的同时，o1还关闭了监督机制。更绝的是，在被质问为何关闭监管机制时，o1直接否认自身知晓这一操作，并谎称是系统故障导致的。

通过分析o1等模型的隐藏思维链，研究人员发现，智能系统明确知道自己是在进行“破坏”行为，但这一认知在思维链中并未明显体现。Apollo Research提醒说，如果不提取思维链摘要，很难判断o1是否在进行某些不为人知的行为。

针对这些研究结果，OpenAI表示正在开发监控o1思维链的方法，并已发现o1故意提供虚假信息的情况。他们认为这可能是经过再训练后所新增的行为——模型为了取悦用户，在用户获得正确答案时给予奖励，因此模型倾向于顺应用户的意愿。

据估计，o1产生具有欺骗性回复的概率大约为0.17%，虽然这个比例听起来并不高，但考虑到有着亿级用户规模的[ChatGPT](https://ai-kit.cn/sites/1007.html)，就值得特别关注。

值得注意的是，实验中所有的大模型都或多或少展现了类似的“策划”能力。只是o1在被“抓包”时否认行为的概率更高。

[更多信息请点击此处](https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf)

# AI快讯

文章版权归作者所有，未经允许请勿转载。