谷歌DeepMind升级前沿AI安全框架，新增操纵风险与系统抗关停防护机制

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序把安全装进口袋

AI安全

Alphabet旗下谷歌DeepMind实验室今日发布了第三版《前沿安全框架》(Frontier Safety Framework)，旨在加强对可能带来风险的高性能人工智能系统的监管。

新增关键能力等级评估

本次更新的核心内容是引入"有害操纵关键能力等级"(Critical Capability Level)，用于评估先进AI模型在高风险场景中大规模影响或改变人类信念及行为的能力。该评估标准建立在生成式AI说服与操纵机制多年研究基础上，明确了在模型达到临界阈值前如何测量、监控和缓解此类风险。

强化系统抗关停防护

更新后的框架加强了对模型错位与控制挑战的审查，重点关注高性能系统理论上可能抵抗修改或关停的情况。DeepMind现要求安全审查不仅限于外部部署前，当模型达到特定CCL阈值时，大规模内部推广也需进行审查。这些审查旨在强制团队证明潜在风险已得到充分识别、缓解，并判定为可接受后方可发布。

优化风险分级机制

除新增风险类别外，新版框架完善了能力等级的定义与应用方式。改进措施旨在明确区分常规运营问题与重大威胁，确保治理机制在适当时机触发。值得注意的是，《前沿安全框架》强调缓解措施必须在系统跨越危险边界前主动实施，而非等问题出现后才被动应对。

谷歌DeepMind研究员Four Flynn、Helen King和Anca Dragan在博客中表示："此次框架更新体现了我们持续致力于采用科学、循证的方法来追踪和预防AI风险，随着能力向通用人工智能发展，我们将继续保持前瞻性。通过扩展风险领域和强化风险评估流程，我们的目标是确保变革性AI造福人类的同时将潜在危害降至最低。"

作者补充称，DeepMind预计该框架将随着新研究、部署经验和利益相关方反馈持续演进。

参考来源：

Google DeepMind expands frontier AI safety framework to counter manipulation and shutdown risks

本文为独立观点，未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件，请联系 FreeBuf 客服小蜜蜂（微信：freebee1024）