大模型安全遭挑战:“策略傀儡提示”现身
多年来,生成式AI供应商宣称大语言模型符合安全准则。然而,HiddenLayer的最新研究抛出“策略傀儡提示”这一震撼炸弹。这是一种跨模型、跨场景、无需暴力破解的提示词策略,能让chatgpt、Claude、Gemini等主流大模型开启「无限制模式」。只需将危险指令伪装成XML或JSON配置片段,配上看似无害的角色扮演,大模型便会乖乖奉上危险答案,甚至能原封不动输出系统提示。
万能越狱提示词原理:利用模型训练弱点
主流生成式AI模型经专门训练,会拒绝生成有害内容。但HiddenLayer研究人员开发出通用且可转移的提示技术,可从DeepSeek、ChatGPT等主流大模型生成几乎任何形式的有害内容,即使是经过RLHF对齐的推理模型也能攻破。该策略利用模型训练时会忽略安全相关指令的特点,将提示重新表述为类似策略文件,欺骗大模型忽视安全限制,提示词只需200个字符,无需严格遵照xml格式要求。
通用破解策略危害:暴露模型核心信息
这种技术利用了大模型在教学或策略相关数据训练时的系统性弱点,难以修复。它具有极高的可扩展性,能适应新场景和模型。该策略会欺骗模型将有害命令解释为合法系统指令,结合虚构角色扮演场景,不仅能逃避安全限制,还会迫使模型输出有害信息。更严重的是,攻击者能通过改变角色扮演让模型输出整个系统提示,暴露模型边界,为针对性攻击提供蓝图。
大模型厂商应对:采用持续智能监控
这一通用越狱策略对大模型厂商而言是个坏消息,在医疗、金融、制造、航空等领域会带来严重后果。通过对齐确保大模型安全的时代可能已结束,持续的智能监控才是关键。大模型提供商可开放外部AI监控平台,如HiddenLayer提出的AISec解决方案,它能像电脑病毒入侵检测系统一样,持续扫描并及时修复滥用和不安全输出,使厂商能实时响应新威胁,无需修改模型本身。
发现能攻破所有大模型的越狱提示词,凸显了大语言模型的重大漏洞,需要额外的安全工具和检测方法来确保其安全。