X-Boundary为大模型打造精准安全防线，破解防御两难困境

DeepSeek-R1模型现安全隐患，传统防御技术遇困境

近期研究表明，凭借超强推理能力而声名大噪的DeepSeek-R1模型暗藏隐忧。即便模型最终拒绝回答问题，其思考过程仍有泄露有害内容的风险。当前主流的防御方法，如SFT、DPO、GA、CB等，在应用于推理模型时，暴露出严重问题：模型安全防线的加固往往伴随着智能水平的衰退。实验显示，SFT虽能降低攻击成功率，但导致DeepSeek-R1-Distill-LLaMA-8B的数学能力在AIME-2024基准上骤降10%，在XSTest和PHTest上还出现大量安全提问被无理由拒绝的系统性误判。多轮攻防场景测评也发现，多轮防御训练会使安全问答的误伤率大幅上升，根源在于现有方法构建的安全防线模糊，有害与安全表征分布高度重合。

X-Boundary防御框架应运而生，构建动态防护网

面对传统防御技术的困境，上海交大与上海AI Lab联合推出X-Boundary防御框架。该框架如同为AI建立智能安检通道，通过三步建立动态防护网。首先是边界绘制，通过设计显式的表征分离优化目标，在表征空间划出“安全禁区”，从根源切断危险与安全表征的混淆；其次是威胁瓦解，对危险表征施加不可逆扰动，使其无法保持有害形态；最后是智能保鲜，采用表征维持技术，确保安全问题表征不受训练影响，维持模型原生智能。

X-Boundary实现理论与实践突破，平衡安全与智能

基于最优传输理论的数学证明，X-Boundary有助于使安全表征更聚集，加快大模型训练时的收敛速度。在Llama-3-8B和Qwen2.5-7B模型上，训练收敛速度分别提升27%和18%。X-Boundary成功在模型内部构建出明暗分界的安全防线，清晰区分有害和安全表征。在安全性和可用性方面，它实现了多轮攻击防御成功率追平现有最优方案，误伤率降至最低水平，模型通用能力保持99%以上原生性能。跨模型规模测试中，面对140亿参数的Qwen2.5-14B-Chat，防御强度再提升65%，误伤率增幅锁死在5%以内，模型智商损耗不足0.6%，实现零感知防御。

研究团队与成果信息

本文由上海AI Lab、上交大和电子科大联合完成。主要作者包括上海AI Lab和上交大联培博士生卢晓雅、上海AILab青年研究员刘东瑞等，通讯作者为上海AI Lab青年科学家邵婧。论文地址为https://arxiv.org/abs/2502.09990，项目主页为https://github.com/AI45Lab/X-Boundary 。

# AI快讯

文章版权归作者所有，未经允许请勿转载。