Anthropic团队利用幂律分布实现AI模型罕见风险预测

AI快讯1年前 (2025)发布 niko

AI模型风险预测难题待解：在AI领域，对齐科学致力于预测AI模型危险行为倾向，以避免不良后果。然而，当前评估方法存在规模问题，大语言模型在小型基准上评估后大规模部署，可能导致评估与实际部署效果不匹配。

AnthroPic团队的创新方法：Anthropic团队认为现有标准评估方法难以测试模型罕见风险，为此开发新方法。他们先计算不同提示使模型产生有害响应的概率，再依据幂律分布绘制风险概率图，通过外推法预测更大范围风险。

方法的验证与应用：团队在多种场景下验证方法准确性。在模型提供危险信息风险预测中，大部分预测与真实风险相差在一个数量级内；预测模型不对齐行为时，误差低于基线方法；应用于“自动化红队测试”，能有效分配计算预算。

方法的局限与未来发展：该方法虽有成效但并非完美，实际效用需突破现有假设。团队给出未来方向，如添加不确定性估计、捕捉尾部行为、拓展应用场景、结合实时监控系统等，有望提升预测准确性与实用性，成为模型安全评估标准工具。

文章版权归作者所有，未经允许请勿转载。