分析和减轻先进AI模型带来的未来风险。
谷歌提出切入AI领域安全的新框架:辨析和缓解模型潜在风险
百度前沿:
早在五年前,业界大佬谷歌的DeepMind就已经开始研究AI前沿安全框架。日前,该框架已经对外公开,并释出了详尽的技术报告。这一前瞻性框架强调了在AI模型发展过程中,识别与挽救潜在风险的重要性,目标在于主动发现可能造成重大负面影响的AI能力,并为其搭建相应的监控与缓解体系。
全面实施行动规划
框架设定在2025年初以前实现全面铺垫初步版框架。它主要关注模型级别风险较高的能力,如特工机构或网络能力等可能引发的严重后果,与谷歌自身一贯的深度研究方向保持一致。
强调安全和保护
在发布的技术报告中,其中一项重大的安全策略是针对模型权重的保护,暗示着商业机密视角下的安全考虑。
三大关键部分:
识别危害阈值:通过对AI模型潜在造成严重伤害的途径研究,界定了模型带来这种伤害所必要的最低能力水平,被定义为“关键能力阈值”(Critical Capability Levels, CCLs),这些阈值是Google DeepMind评估与缓解方法的指南。
定期评估前沿模型:旨在检测模型何时实现这些关键能力阈值。Google DeepMind致力于开发评估工具包,即早期预警评估,用以预测并频繁检查模型临近CCL时的状况,确保研究人员在临界值前得到预警。
应用风险缓解计划:综合考虑利益与风险的关系及预期部署环境后实施。主要关注点在于安全性(模型权重安全保障)和部署管理(关键能力的合理运用)。
两类缓解策略与四个高风险领域
前沿安全框架设计了包括模型权重泄露防范和对关键能力的部署访问控制在内的两类缓解策略。根据风险大小,调节策略的严格程度。
此外, Google DeepMind的初步研究指出,未来在以下四个领域最有可能产生重大的潜在风险:自主性、生物安全、网络安全、以及机器学习研发领域。其中,重点在意评估高能力模型被恶意行为者操控,导致严重后果的可能性。对于机器学习研发,关注的焦点是这些模型是否能促使其他关键能力模型的传播或者让AI能力以难以控制的速度提升。
框架的技术报告详细阐述了对于这四个风险领域确定的一系列初始CCLs。随着研究的深入,这些CCLs会不断更新,并且可能增加更多更为复杂或风险领域。
结语与展望
Google DeepMind不会被成功框架所满足,他们持续投入于前沿安全团队,致力于完善框架背后的风险评估科学。同时,也在部署自主研发的评估套件,并在最具前瞻性的模型上进行了实际测试。
团队专注于研制早期预警系统,这个系统不仅评估了模型对未曾完成任务能成功执行多远,而且综合了领域专家对未来能力的预测。
Google DeepMind遵循了集团AI原则,对前沿安全框架进行定期的审查和调整,并与学界、产业界和政府联手完善框架,以确保评估下一代AI模型的安全性有明确而高效的标准。
本文为新框架的概述介绍,反映了谷歌DeepMind在推动AI领域安全性方面的新动向。