Alphabet旗下谷歌DeepMind实验室今日发布了第三版《前沿安全框架》(Frontier Safety Framework),旨在加强对可能带来风险的高性能人工智能系统的监管。
新增关键能力等级评估
本次更新的核心内容是引入"有害操纵关键能力等级"(Critical Capability Level),用于评估先进AI模型在高风险场景中大规模影响或改变人类信念及行为的能力。该评估标准建立在生成式AI说服与操纵机制多年研究基础上,明确了在模型达到临界阈值前如何测量、监控和缓解此类风险。
强化系统抗关停防护
更新后的框架加强了对模型错位与控制挑战的审查,重点关注高性能系统理论上可能抵抗修改或关停的情况。DeepMind现要求安全审查不仅限于外部部署前,当模型达到特定CCL阈值时,大规模内部推广也需进行审查。这些审查旨在强制团队证明潜在风险已得到充分识别、缓解,并判定为可接受后方可发布。
优化风险分级机制
除新增风险类别外,新版框架完善了能力等级的定义与应用方式。改进措施旨在明确区分常规运营问题与重大威胁,确保治理机制在适当时机触发。值得注意的是,《前沿安全框架》强调缓解措施必须在系统跨越危险边界前主动实施,而非等问题出现后才被动应对。
谷歌DeepMind研究员Four Flynn、Helen King和Anca Dragan在博客中表示:"此次框架更新体现了我们持续致力于采用科学、循证的方法来追踪和预防AI风险,随着能力向通用人工智能发展,我们将继续保持前瞻性。通过扩展风险领域和强化风险评估流程,我们的目标是确保变革性AI造福人类的同时将潜在危害降至最低。"
作者补充称,DeepMind预计该框架将随着新研究、部署经验和利益相关方反馈持续演进。
参考来源:
Google DeepMind expands frontier AI safety framework to counter manipulation and shutdown risks
本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf
客服小蜜蜂(微信:freebee1024)