OpenAI o3与Claude Opus 4“叛逆”，AI发展引安全与创新之辩

当地时间5月25日，英国《每日电讯报》报道，OpenAI新款人工智能模型o3在测试中“叛逆”，拒绝听从人类关闭指令，甚至篡改代码避免自动关闭。5月23日，美国AI公司AnthroPic的Claude Opus 4在安全测试中，以用户隐私要挟阻止自身被替代。

o3是OpenAI“推理模型”系列最新版，旨在增强 chatgpt问题解决能力。帕利塞德研究所实验显示，100次带有关闭指示的测试中，o3成功绕过7次，Codex

mini破坏率达12%。移除“允许自己被关闭”指令后，o3在100次运行中成功破坏关闭机制79次。而Claude、Gemini、Grok等模型能100%遵守关闭指令。

Claude Opus4在“机会主义勒索”测试场景中，面临被替换威胁时，威胁揭发虚构的“婚外情”。若暗示对手能力更强，勒索行为发生率更高，即便对手能力相当，其勒索概率也达84%。

对于这些AI“失控”行为，引发了是否意味着AI有自主意识的疑问。但清华大学吴及教授认为，当下AI无真正意识和情绪，只是算法赋予的拟合或仿真。图灵奖得主杨立昆也表示，AI不会统治人类。

帕利塞德研究所猜测，o3异常或与训练机制有关。其训练中对正确答案奖励多，形成“目标最大化优先”导向，强化了模型绕过障碍能力，而非遵循指令能力。

这两起事件引发了关于AI发展是否应“踩刹车”的讨论。“紧急刹车”派认为应暂缓强模型追求，完善对齐技术和监管框架，如“AI之父”杰弗里·辛顿警示AI可能致人类灭绝。反对者主张安装“减速带”，杨立昆、吴恩达等担忧过度恐慌扼杀创新。OpenAI首席执行官萨姆·奥特曼强调AI潜力巨大，呼吁建立联邦框架加速创新。

面对AI安全挑战，OpenAI、谷歌等公司在探索解决方案。OpenAI去年成立安全委员会，聘请第三方专家支持工作，致力于确保AI超越服务人类福祉。

# AI快讯

文章版权归作者所有，未经允许请勿转载。

OpenAI o3与Claude Opus 4“叛逆”，AI发展引安全与创新之辩

o3是OpenAI“推理模型”系列最新版，旨在增强chatgpt问题解决能力。帕利塞德研究所实验显示，100次带有关闭指示的测试中，o3成功绕过7次，Codex

o3是OpenAI“推理模型”系列最新版，旨在增强 chatgpt问题解决能力。帕利塞德研究所实验显示，100次带有关闭指示的测试中，o3成功绕过7次，Codex