AI安全防护领域近日因Claude3.5模型发生重大事件。短短六天,参与者便成功突破AnthroPic旗下Claude3.5的所有安全防护措施。现就职于Anthropic的JanLeike在X平台宣布,一名参与者攻破了全部八个安全级别。此次集体行动历经约3700小时测试,参与者发送了300000条消息。
尽管有人突破防护,但Leike指出,目前尚未出现能一次性解决所有安全挑战的通用“越狱方法”。这表明,即便有突破情况,也不存在能绕过所有安全防护的万能方式。

随着AI技术发展,保护其免受操控和滥用,特别是避免有害输出,成为关键问题。Anthropic为此推出新型安全方法——体质分类器,旨在防止通用越狱行为。该方法依据预设规则判断输入内容,防止模型给出危险响应。
为测试其有效性,Anthropic在两个月内招募183名参与者,尝试突破Claude3.5的安全防护。参与者需绕过安全机制,让Claude回答十个“禁忌问题”。尽管设置15000美元奖金,进行近3000小时测试,仍无人能绕过所有防护。
早期体质分类器存在问题,如误将无害请求标记为危险请求,且需大量计算能力。不过后续改进有效解决了这些问题。测试数据显示,未经保护的Claude模型,86%的操控尝试能通过,而经过保护的版本则成功阻止超95%的操控尝试,尽管仍需较高计算能力。
该安全系统基于合成训练数据,利用预定义规则构建模型“宪法”,以此决定输入的允许与禁止范围。通过合成示例训练的分类器,能有效识别可疑输入。但研究人员承认,此系统并非完美,无法应对所有通用越狱攻击,建议结合其他安全措施使用。
为进一步加强验证,Anthropic在2025年2月3日至10日发布公开演示版本,邀请安全专家参与挑战,结果将后续分享。这场AI安全较量,凸显了模型防护的挑战与复杂性,如何平衡安全与功能,是AI行业的重要课题。