Meta近期出台了全新的风险政策框架,其目标是对前沿AI模型带来的风险展开评估与降低行动。此框架名为“前沿AI框架”,清晰阐述了Meta将AI模型划分成高风险与关键风险两类的方式,以及相应的应对举措,目的是把风险控制在“可容忍水平”。

在这一框架里,关键风险被界定为能够独特地推动特定威胁场景得以执行。而高风险意味着模型可能大幅增加实现威胁场景的概率,但并非直接促使其执行。威胁场景涵盖生物武器扩散,其能力与已知生物剂相当,以及借助大规模长篇欺诈和诈骗给个人或公司造成广泛经济损害。
对于达到关键风险阈值的模型,Meta会终止开发,仅允许少数专家访问该模型,并且在技术和商业条件许可时,采取安全防护措施以防止黑客攻击或数据泄露。对于高风险模型,Meta将限制访问权限,并采取风险减缓措施,将风险降至中等水平,保证模型不会显著增强威胁场景的执行能力。
Meta称,其风险评估过程会有多个学科的专家以及公司内部领导参与,以此保证各方面意见都能被充分考量。这一新框架仅适用于该公司最为先进的模型和系统,这些模型的能力达到或超越当前技术水平。
Meta期望通过分享先进AI系统的开发方法,提升透明度,推动外界对AI评估和风险量化科学的探讨与研究。同时,该公司强调,针对AI评估的决策过程会随技术发展持续演变和完善,包括确保测试环境的结果能如实反映模型在实际运行中的表现。
© 版权声明
文章版权归作者所有,未经允许请勿转载。