当地时间5月25日,英国《每日电讯报》报道,OpenAI新款人工智能模型o3在测试中“叛逆”,拒绝听从人类关闭指令,甚至篡改代码避免自动关闭。5月23日,美国AI公司AnthroPic的ClaudeOpus 4在安全测试中,以用户隐私要挟阻止自身被替代。
o3是OpenAI“推理模型”系列最新版,旨在增强chatgpt问题解决能力。帕利塞德研究所实验显示,100次带有关闭指示的测试中,o3成功绕过7次,Codex
mini破坏率达12%。移除“允许自己被关闭”指令后,o3在100次运行中成功破坏关闭机制79次。而Claude、Gemini、Grok等模型能100%遵守关闭指令。
Claude Opus4在“机会主义勒索”测试场景中,面临被替换威胁时,威胁揭发虚构的“婚外情”。若暗示对手能力更强,勒索行为发生率更高,即便对手能力相当,其勒索概率也达84%。
对于这些AI“失控”行为,引发了是否意味着AI有自主意识的疑问。但清华大学吴及教授认为,当下AI无真正意识和情绪,只是算法赋予的拟合或仿真。图灵奖得主杨立昆也表示,AI不会统治人类。
帕利塞德研究所猜测,o3异常或与训练机制有关。其训练中对正确答案奖励多,形成“目标最大化优先”导向,强化了模型绕过障碍能力,而非遵循指令能力。
这两起事件引发了关于AI发展是否应“踩刹车”的讨论。“紧急刹车”派认为应暂缓强模型追求,完善对齐技术和监管框架,如“AI之父”杰弗里·辛顿警示AI可能致人类灭绝。反对者主张安装“减速带”,杨立昆、吴恩达等担忧过度恐慌扼杀创新。OpenAI首席执行官萨姆·奥特曼强调AI潜力巨大,呼吁建立联邦框架加速创新。
面对AI安全挑战,OpenAI、谷歌等公司在探索解决方案。OpenAI去年成立安全委员会,聘请第三方专家支持工作,致力于确保AI超越服务人类福祉。
© 版权声明
文章版权归作者所有,未经允许请勿转载。