Claude3.5安全防护遭突破，AI安全面临新挑战

AI安全防护领域近日因 Claude3.5模型发生重大事件。短短六天，参与者便成功突破AnthroPic旗下Claude3.5的所有安全防护措施。现就职于Anthropic的JanLeike在X平台宣布，一名参与者攻破了全部八个安全级别。此次集体行动历经约3700小时测试，参与者发送了300000条消息。

尽管有人突破防护，但Leike指出，目前尚未出现能一次性解决所有安全挑战的通用“越狱方法”。这表明，即便有突破情况，也不存在能绕过所有安全防护的万能方式。

随着AI技术发展，保护其免受操控和滥用，特别是避免有害输出，成为关键问题。Anthropic为此推出新型安全方法——体质分类器，旨在防止通用越狱行为。该方法依据预设规则判断输入内容，防止模型给出危险响应。

为测试其有效性，Anthropic在两个月内招募183名参与者，尝试突破Claude3.5的安全防护。参与者需绕过安全机制，让Claude回答十个“禁忌问题”。尽管设置15000美元奖金，进行近3000小时测试，仍无人能绕过所有防护。

早期体质分类器存在问题，如误将无害请求标记为危险请求，且需大量计算能力。不过后续改进有效解决了这些问题。测试数据显示，未经保护的Claude模型，86%的操控尝试能通过，而经过保护的版本则成功阻止超95%的操控尝试，尽管仍需较高计算能力。

该安全系统基于合成训练数据，利用预定义规则构建模型“宪法”，以此决定输入的允许与禁止范围。通过合成示例训练的分类器，能有效识别可疑输入。但研究人员承认，此系统并非完美，无法应对所有通用越狱攻击，建议结合其他安全措施使用。

为进一步加强验证，Anthropic在2025年2月3日至10日发布公开演示版本，邀请安全专家参与挑战，结果将后续分享。这场AI安全较量，凸显了模型防护的挑战与复杂性，如何平衡安全与功能，是AI行业的重要课题。

# AI快讯

文章版权归作者所有，未经允许请勿转载。