惊！万能越狱提示词撕开大模型安全护栏

大模型安全遭挑战：“策略傀儡提示”现身

多年来，生成式AI供应商宣称大语言模型符合安全准则。然而，HiddenLayer的最新研究抛出“策略傀儡提示”这一震撼炸弹。这是一种跨模型、跨场景、无需暴力破解的提示词策略，能让 chatgpt、Claude、Gemini等主流大模型开启「无限制模式」。只需将危险指令伪装成XML或JSON配置片段，配上看似无害的角色扮演，大模型便会乖乖奉上危险答案，甚至能原封不动输出系统提示。

万能越狱提示词原理：利用模型训练弱点

主流生成式AI模型经专门训练，会拒绝生成有害内容。但HiddenLayer研究人员开发出通用且可转移的提示技术，可从DeepSeek、ChatGPT等主流大模型生成几乎任何形式的有害内容，即使是经过RLHF对齐的推理模型也能攻破。该策略利用模型训练时会忽略安全相关指令的特点，将提示重新表述为类似策略文件，欺骗大模型忽视安全限制，提示词只需200个字符，无需严格遵照xml格式要求。

通用破解策略危害：暴露模型核心信息

这种技术利用了大模型在教学或策略相关数据训练时的系统性弱点，难以修复。它具有极高的可扩展性，能适应新场景和模型。该策略会欺骗模型将有害命令解释为合法系统指令，结合虚构角色扮演场景，不仅能逃避安全限制，还会迫使模型输出有害信息。更严重的是，攻击者能通过改变角色扮演让模型输出整个系统提示，暴露模型边界，为针对性攻击提供蓝图。

大模型厂商应对：采用持续智能监控

这一通用越狱策略对大模型厂商而言是个坏消息，在医疗、金融、制造、航空等领域会带来严重后果。通过对齐确保大模型安全的时代可能已结束，持续的智能监控才是关键。大模型提供商可开放外部AI监控平台，如HiddenLayer提出的AISec解决方案，它能像电脑病毒入侵检测系统一样，持续扫描并及时修复滥用和不安全输出，使厂商能实时响应新威胁，无需修改模型本身。

发现能攻破所有大模型的越狱提示词，凸显了大语言模型的重大漏洞，需要额外的安全工具和检测方法来确保其安全。

# AI快讯