谷歌DeepMind升级前沿AI安全框架,新增操纵风险与系统抗关停防护机制
DeepMind发布第三版《前沿安全框架》,新增关键能力等级评估和抗关停防护机制,优化风险分级机制,旨在加强对高性能AI系统的监管和潜在风险的主动缓解。 2025-9-22 12:40:1 Author: www.freebuf.com(查看原文) 阅读量:2 收藏

freeBuf

主站

分类

云安全 AI安全 开发安全 终端安全 数据安全 Web安全 基础安全 企业安全 关基安全 移动安全 系统安全 其他安全

特色

热点 工具 漏洞 人物志 活动 安全招聘 攻防演练 政策法规

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

Alphabet旗下谷歌DeepMind实验室今日发布了第三版《前沿安全框架》(Frontier Safety Framework),旨在加强对可能带来风险的高性能人工智能系统的监管。

新增关键能力等级评估

本次更新的核心内容是引入"有害操纵关键能力等级"(Critical Capability Level),用于评估先进AI模型在高风险场景中大规模影响或改变人类信念及行为的能力。该评估标准建立在生成式AI说服与操纵机制多年研究基础上,明确了在模型达到临界阈值前如何测量、监控和缓解此类风险。

强化系统抗关停防护

更新后的框架加强了对模型错位与控制挑战的审查,重点关注高性能系统理论上可能抵抗修改或关停的情况。DeepMind现要求安全审查不仅限于外部部署前,当模型达到特定CCL阈值时,大规模内部推广也需进行审查。这些审查旨在强制团队证明潜在风险已得到充分识别、缓解,并判定为可接受后方可发布。

优化风险分级机制

除新增风险类别外,新版框架完善了能力等级的定义与应用方式。改进措施旨在明确区分常规运营问题与重大威胁,确保治理机制在适当时机触发。值得注意的是,《前沿安全框架》强调缓解措施必须在系统跨越危险边界前主动实施,而非等问题出现后才被动应对。

谷歌DeepMind研究员Four Flynn、Helen King和Anca Dragan在博客中表示:"此次框架更新体现了我们持续致力于采用科学、循证的方法来追踪和预防AI风险,随着能力向通用人工智能发展,我们将继续保持前瞻性。通过扩展风险领域和强化风险评估流程,我们的目标是确保变革性AI造福人类的同时将潜在危害降至最低。"

作者补充称,DeepMind预计该框架将随着新研究、部署经验和利益相关方反馈持续演进。

参考来源:

Google DeepMind expands frontier AI safety framework to counter manipulation and shutdown risks

本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf 客服小蜜蜂(微信:freebee1024)


文章来源: https://www.freebuf.com/articles/ai-security/449842.html
如有侵权请联系:admin#unsafe.sh