Anthropic团队利用幂律分布实现AI模型罕见风险预测

AI快讯2小时前发布 niko
1 0
豆包 - 字节AI智能助手

AI模型风险预测难题待解:在AI领域,对齐科学致力于预测AI模型危险行为倾向,以避免不良后果。然而,当前评估方法存在规模问题,大语言模型在小型基准上评估后大规模部署,可能导致评估与实际部署效果不匹配。

AnthroPic团队的创新方法:Anthropic团队认为现有标准评估方法难以测试模型罕见风险,为此开发新方法。他们先计算不同提示使模型产生有害响应的概率,再依据幂律分布绘制风险概率图,通过外推法预测更大范围风险。

方法的验证与应用:团队在多种场景下验证方法准确性。在模型提供危险信息风险预测中,大部分预测与真实风险相差在一个数量级内;预测模型不对齐行为时,误差低于基线方法;应用于“自动化红队测试”,能有效分配计算预算。

方法的局限与未来发展:该方法虽有成效但并非完美,实际效用需突破现有假设。团队给出未来方向,如添加不确定性估计、捕捉尾部行为、拓展应用场景、结合实时监控系统等,有望提升预测准确性与实用性,成为模型安全评估标准工具。

© 版权声明
智谱清言 - 国产最强AI模型