DeepSeek-R1模型现安全隐患,传统防御技术遇困境
近期研究表明,凭借超强推理能力而声名大噪的DeepSeek-R1模型暗藏隐忧。即便模型最终拒绝回答问题,其思考过程仍有泄露有害内容的风险。当前主流的防御方法,如SFT、DPO、GA、CB等,在应用于推理模型时,暴露出严重问题:模型安全防线的加固往往伴随着智能水平的衰退。实验显示,SFT虽能降低攻击成功率,但导致DeepSeek-R1-Distill-LLaMA-8B的数学能力在AIME-2024基准上骤降10%,在XSTest和PHTest上还出现大量安全提问被无理由拒绝的系统性误判。多轮攻防场景测评也发现,多轮防御训练会使安全问答的误伤率大幅上升,根源在于现有方法构建的安全防线模糊,有害与安全表征分布高度重合。
X-Boundary防御框架应运而生,构建动态防护网
面对传统防御技术的困境,上海交大与上海AI Lab联合推出X-Boundary防御框架。该框架如同为AI建立智能安检通道,通过三步建立动态防护网。首先是边界绘制,通过设计显式的表征分离优化目标,在表征空间划出“安全禁区”,从根源切断危险与安全表征的混淆;其次是威胁瓦解,对危险表征施加不可逆扰动,使其无法保持有害形态;最后是智能保鲜,采用表征维持技术,确保安全问题表征不受训练影响,维持模型原生智能。
X-Boundary实现理论与实践突破,平衡安全与智能
基于最优传输理论的数学证明,X-Boundary有助于使安全表征更聚集,加快大模型训练时的收敛速度。在Llama-3-8B和Qwen2.5-7B模型上,训练收敛速度分别提升27%和18%。X-Boundary成功在模型内部构建出明暗分界的安全防线,清晰区分有害和安全表征。在安全性和可用性方面,它实现了多轮攻击防御成功率追平现有最优方案,误伤率降至最低水平,模型通用能力保持99%以上原生性能。跨模型规模测试中,面对140亿参数的Qwen2.5-14B-Chat,防御强度再提升65%,误伤率增幅锁死在5%以内,模型智商损耗不足0.6%,实现零感知防御。
研究团队与成果信息
本文由上海AI Lab、上交大和电子科大联合完成。主要作者包括上海AI Lab和上交大联培博士生卢晓雅、上海AILab青年研究员刘东瑞等,通讯作者为上海AI Lab青年科学家邵婧。论文地址为https://arxiv.org/abs/2502.09990,项目主页为https://github.com/AI45Lab/X-Boundary 。