【公益译文】2026年国际AI安全报告（五）

阅读： 12

3.2.风险管理实践

AI风险管理涵盖多个方面，目的是识别、评估和降低AI相关风险的可能性和严重程度。可以由AI开发人员、部署人员、评估人员和监管机构实施安全措施，包括但不限于威胁建模、风险分层、红队演练、审计和事件报告。自2025年以来，国际上多项针对AI风险管理的新举措相继出台，包括组织透明度和风险报告框架，以及监管和治理框架。

图3.4：AI风险管理的四类方法：风险识别、风险分析与评估、风险缓解、风险治理，方法之间持续迭代和循环。风险治理措施有助于其他方法的成功实施。来源：《2026年国际AI安全报告》。

此外，有限的标准化程度和缺少关于实际有效性的依据使得合规性和评估更加复杂。全球的制度、文化和政治环境不同，识别和管理风险的方法以及可接受的风险阈值可能不同。

风险管理是迭代过程，实践和方法贯穿AI开发的整个部署周期，但能够协调一致地发挥作用。风险管理可以涵盖广泛的参与者，包括数据科学家、模型工程师、审计员、领域专家、高管、终端用户、受影响社区、第三方供应商、决策者、政府、标准组织和民间社会组织。领先的风险管理标准通常具有互操作性，但描述风险管理要素使用的术语不同。风险治理通常包含四个相互关联的组成部分（见图3.4），即风险识别、风险分析和评估、风险缓解、风险管理。表3.1提供了相关方法、技术和工具示例。现实中的实际情况不断变化，表格无法覆盖所有情况，适用性因具体情况而异。

3.2.1.风险识别

风险识别指发现、识别和描述风险的过程。全面的风险识别通常包括模型能力评估、风险建模和风险预测，用于检验模型是否具备特定的危险能力、发现已存在的风险以及预测未来可能出现的风险，表3.1提供了相关实践案例。风险识别还依赖于与相关专家和社群的互动，了解风险产生的广泛背景，漏洞赏金计划等机制可激励人们发现未知漏洞。风险识别的关键目标之一是既要识别众所周知、易于理解的风险，也要预测未来可能出现但仍不确定或特征不明确的风险。这对于通用AI模型尤为重要，因为其中许多风险可能尚未被充分理解或观察到。

识别AI风险的两种主要方法是风险分类和威胁建模，后者用于映射AI相关风险实现方式的结构化过程。例如，Meta就使用了威胁建模训练，用于预测AI模型的潜在恶意利用场景，Anthropic的AI建模也将威胁场景纳入其ASL-3部署标准中。AI风险和危害分类法列出了风险类别和示例，同样可以用于概念化、识别和明确特定应用领域中通用AI的相关风险。

表3.1：AI风险识别方法示例（按字母顺序排列）。这些方法的目的是支持识别不同类型的风险，包括恶意利用风险、故障风险和系统性风险。通用AI风险管理尚处于起步阶段，并非所有方法都适用于每位开发人员或部署人员。

3.2.2.风险分析与评估

风险分析与评估旨在确定AI模型或系统的风险等级，将其与既定标准进行比较，评估其可接受程度或是否需要缓解。风险分析与评估实践案例包括通过基准测试和评估衡量模型性能、开展红队演练、影响评估以及审计（见表3.2）。

这些方法旨在支持同时分析和评估不同类型的风险。风险分析和评估的关键目标是评估模型的能力和漏洞，利用稳健的风险建模为风险决策提供信息阈值，了解AI在实践中的应用方式，评估其对下游社会的影响。风险分析和评估流程如果包含独立审查、借鉴跨部门专业知识并纳入多个领域和学科以及受影响社群的多元视角，则识别出风险的概率更大。

表3.2：AI风险分析与评估方法示例（按字母顺序排列）。通用AI模型的风险管理尚处于起步阶段，并非所有方法都适用于每位AI开发人员或部署人员。

常见的风险分析工具：基准测试和模型评估

基准测试和模型评估是用于评估通用AI模型在特定任务上的能力的标准化测试。研究人员开发了广泛的基准测试和评估方法，包括具有挑战性的多项选择题、软件工程问题以及模拟办公环境中的工作相关任务。有害能力评估用于评估通用AI模型或系统是否具有特别危险的知识或技能，例如协助网络攻击的能力。

公司和政府在发布模型时做出的部分影响重大的决策一定程度上依赖于这些评估结果。然而，基准测试的质量和范围差异显著，而且由于基准测试实践中存在诸多缺陷，因此很难判断有效性。例如，许多模型的得分接近最高分时，基准测试可能会出现“饱和”现象，这意味着不再能有效区分不同的模型。此外，模型由于具有情境感知能力，越来越有可能将某些任务识别为评估任务，并在实际部署环境中表现出与类似任务不同的行为。而且基准测试和模型评估方法存在局限性，尤其值得注意的是，由于测试条件与实际应用场景的差异程度不同，这些方法无法捕捉通用AI在新领域和新任务中的应用所带来的风险。

更具针对性的风险评估：红队演练

另一种常见的风险评估方法是红队演练。红队是由评估人员组成的团队，他们的任务是查找漏洞、局限性或潜在的恶意利用风险。红队演练可以是由特定领域专家执行的，也可以是开放式的，用于探索新的风险因素。例如，红队可能会探索越狱攻击，绕过模型的安全限制。与基准测试相比，红队演练的关键优势之一在于，红队可以根据被测系统的具体情况调整评估方法。例如，红队可以设计自定义输入，识别最坏情况行为、恶意利用机会和意外故障。但红队演练可能需要对模型拥有特殊访问权限，并且可能无法发现重要的风险类别。

重要的是，未识别出风险并不意味着这些风险很低，先前的研究表明，有些漏洞往往会逃避检测，尤其是在红队访问权限或资源有限的情况下。先前的研究还对红队演练能否产生可靠且可复现的结果提出了质疑，红队的组成和提供给红队成员的指令、攻击轮数以及模型对工具的访问权限都会显著影响覆盖的风险范围等结果。

3.2.3.风险缓解

风险缓解指确定优先级、评估和实施控制措施和应对措施的过程，降低已发现的风险，如：访问控制、持续监控和“如果-那么”规则。风险缓解引出的关键问题之一是可接受的风险程度是多大？最新的框架和公司政策正式制定“风险接受”标准。然而，设定适当的阈值的问题仍然具有挑战性，尤其对于具有广泛社会影响的风险而言。目前还没有成熟的机制能够验证开发人员在发布前做出的风险接受决策。

表3.3中列举了部分风险缓解措施，可用于缓解多种风险。

表3.3：AI风险缓解措施示例。所列方法旨在同时支持不同类型风险的缓解，包括恶意利用风险、运行异常风险和系统性风险。通用AI风险管理尚处于起步阶段，并非所有方法都适用于每位AI开发人员或部署人员。

图3.5：“瑞士奶酪图”展示了纵深防御方法，多层防御可以弥补单层防御的缺陷。当前AI风险管理技术存在缺陷，多层防御可以提供更强大的风险防护方式。来源：《2026年国际AI安全报告》。

纵深防御和发布策略是重要的风险缓解工具

“纵深防御”模型可以支持通用AI风险管理。“纵深防御”指在开发和部署的不同阶段应用的技术、组织和社会措施的组合（见图3.5）。创建多层独立的安全保障措施，即使某一层失效，其他层仍然可以进行有效防御。纵深防御模型的常见示例之一是传染病预防措施。打疫苗、戴口罩、勤洗手等方法单独使用都不能达到100%的有效性，但把它们结合起来可以显著降低感染风险。对于通用AI而言，纵深防御模型包括的是针对更广泛的生态系统而非AI模型本身的控制措施，主要针对事故、故障和恶意利用相关的风险，在系统性风险管理方面可能发挥的作用较小。

公司发布和部署策略是风险缓解的重要环节。向用户提供AI模型的方式的决策会显著影响风险的暴露问题。发布和部署策略包括分阶段向有限的用户群体发布、通过受控的在线服务访问，以及使用许可协议和可接受使用政策，以法律手段禁止某些有害应用程序。

3.2.4. 风险治理

风险治理指将风险管理评估、决策和行动与组织或其他实体的风险管理策略和目标联系起来的过程。表3.4对常见的风险治理方法进行了概述。如图3.4所示，风险治理是风险管理的核心，它有助于风险管理的其他组成部分的有效运作。风险治理提供问责机制、透明度和清晰度，支持对已知风险的管理决策。风险治理包括事件报告、风险责任分配和举报人保护等实践方法，还可能包括指南、框架、立法、法规、国家和国际标准，以及培训和教育举措。风险治理的关键目的之一是建立组织政策和机制，明确风险管理责任在组织或其他实体内部的分配方式，从而支持适当的监督和问责措施。

表3.4：按字母顺序排列的AI风险治理示例方法。所包含的方法旨在同时支持多种不同类型风险的风险治理，包括恶意使用风险、故障风险和系统性风险。鉴于通用AI风险管理尚处于起步阶段，并非所有方法都适用于每个AI开发人员或部署人员。

文档建立和透明度机制是风险治理的环节

文档建立、机构透明机制和信息共享实践有助于外部监督通用AI相关风险管理。将部署前测试结果以“模型卡”或“系统卡”的形式发布，附上模型或系统的训练方式及潜在局限性等基本信息，已成为一种普遍做法。有些开发人员还会发布透明度报告，更广泛地介绍风险管理实践。其他要素文档和透明度机制还包括监控和事件报告以及信息共享，后者可由前沿模型论坛等第三方机构协助实现。还有些国家或地区的监管框架在某些情况下强制要求共享通用AI的风险信息，例如，欧盟的《人工智能法案》和美国加州的《前沿人工智能透明度法案》，即加州参议院第53号法案（Senate Bill No. 53）。

领导层的承诺和激励机制影响风险管理实践

组织文化、领导结构以及激励机制会以各种方式影响风险管理工作，领导层的承诺和激励机制通常与风险管理政策的实际运作方式密切相关。有些开发企业设有内部决策小组，负责讨论如何安全负责地设计、开发和审查新的AI模型。监督和咨询委员会、信托机构或AI伦理委员会也可以为风险管理指导和组织监督的机制提供支持。研究人员指出，自愿性质的自我治理通过第三方审计、验证和标准化机制加强通用AI风险管理。

组织风险管理、透明度和风险报告框架

多项新举措侧重于风险管理流程、文档建立和透明度机制。欧盟的《通用人工智能实践准则》是自愿性框架，目的是指导透明度、版权以及安全保障方面的实践，支持遵守欧盟《人工智能法案》的各项规定。截至2025年12月，超过24家公司签署了该框架。七国集团的“广岛人工智能进程”报告框架是首个针对高级AI发布的国际框架，旨在促进组织风险管理实践自愿公开报告。至少有20家企业发布了公开透明度报告，内容涵盖风险识别、评估指标、缓解策略和数据安全流程。

AI开发人员已采纳自愿透明度承诺机制。由中国人工智能产业发展联盟组织的17家中国AI企业于2025年12月发布了承诺文件。在2024年5月于韩国首尔举行的AI首尔峰会上，来自多个国家的16位AI开发人员签署了自愿承诺，将为最先进的模型和系统发布前沿AI安全框架，并在模型开发和部署阶段以及部署过程中采用风险管理实践。

前沿AI安全框架成为AI风险管理的重要方法

自2023年以来，部分前沿AI开发企业自愿发布了相关文档，针对如何识别和应对高级系统中的严重风险的计划进行了说明。这些前沿AI安全框架针对在最先进的AI模型和系统出现问题之前进行评估、监控和控制的计划进行了说明。这些框架有很多相似之处，但在关键方面存在差异。大多数框架侧重于化学、生物、放射性和核威胁、高级网络能力和高级自主行为相关的风险，少数框架涉及其他风险领域。

有些企业在2025年更新了安全框架，增加了关于恶意利用、错位风险以及自主复制和适应的相关内容。许多框架描述了类似的风险管理方法，如：威胁建模、红队演练和危险能力评估等，但对风险等级和阈值的定义、评估频率、每次评估之间的缓冲时间，以及承诺的缓解措施的全面性等方面并不相同，例如，出现问题时，是否删除模型权重，还是仅暂停开发（见表3.5）。

Frontier AI安全框架中的许多行动都基于“如果-那么”规则

Frontier AI安全框架的关键部分是“如果-那么”规则。这些是条件协议，当AI模型和系统达到预定义的能力阈值时，会触发特定的响应。例如，“如果-那么”规则可能规定，“如果”发现某个模型有能力有效地帮助新手制造和部署核生化武器，“那么”开发人员将实施更强的安全措施、部署控制和实时监控。

2025年，有些AI企业宣布，新模型触发了早期预警警报，或者他们无法排除进一步评估表明模型已超过能力阈值的可能性，促使他们采取预防措施等更严格的保障措施。前沿AI安全框架通常要求在风险缓解之前评估初始能力，并在风险缓解之后进行残余风险分析或安全案例分析，通常以红队演练为依据。有关详细信息，请参见表3.5。

表3.5：签署了《前沿AI安全承诺》的部分AI开发企业发布的第一批前沿AI安全框架，涵盖的风险相似（但略有不同），采用不同的风险等级评定和风险管理方法。

前沿AI安全框架的有效性尚不确定

在特定条件下，对于某些具有可信危害路径的风险类别，前沿AI安全框架可以作为风险管理工具。同时，有研究分析探讨了这些框架的清晰度和范围以及AI能力和风险阈值的稳健性，现有框架往往侧重于部分风险领域。因此，非法监视等突出的风险受到的重视程度较低。与航空或核电等行业的风险管理方法不同，框架通常不使用明确的定量风险阈值。

前沿AI安全框架目前仍缺乏外部评估，部分原因是大多数框架都是近期推出的，公开信息匮乏，缺乏标准化的外部审计。这些框架的实际影响取决于执行情况和程度，所以可能无法保证风险管理的有效性。迄今为止，这些框架尚未完全符合国际风险管理标准。一项针对先前自愿承诺的研究发现，各项措施的履行情况参差不齐，不同公司和行业遵守自愿承诺的情况不同。总而言之，前沿AI安全框架代表了目前使用的最详细的自愿性组织风险管理形式，但在范围、阈值和可执行性方面存在很大差异。

3.2.5. 监管和治理举措

多个国家或地区引入具有透明度要求的法律

早期的部分监管办法通过引入法律要求提高风险管理标准化和透明度。2024年生效的欧盟《AI法案》对通用AI模型的透明度、版权和安全性提出了要求。2025年发布的《通用人工智能实践准则》通过提供模型文档和版权方面的指导，以及针对最先进的模型提供的风险管理实践支持对义务的遵守。

此外，韩国的《人工智能发展与信任基础创建法》引入了在关键行业中影响较大的AI的要求，美国的SB 53法案对安全框架和事件报告设定了透明度要求。这些要求最近才制定出台，详细评估它们如何影响风险管理实践或实际风险结果还为时过早。

更多治理举措提供自愿性指导

目前，多个区域和跨区域治理框架为决策者和组织提供非约束性指导，阐明了对通用AI风险管理的共同期望。中国于2025年发布的《AI安全治理框架2.0》就AI开发和部署过程中的风险分类和应对措施提供了结构化指导。东盟成员国发布的《东盟AI治理与伦理扩展指南（生成式AI）》就通用AI的治理和伦理问题提供了指导，促进东盟成员国之间政策的更大协调。此外，专家主导的诸多倡议也提出了相关建议。例如，《新加坡共识》由来自多个国家的AI领域科学家制定，概述了通用AI安全在风险评估、开发和控制方面的研究重点。

决策者面临的挑战

可信的生态系统中，不同的AI参与者在整个生命周期中贡献的风险管理实践可以互补，可能对进行有效的风险管理起到一定作用。但目前仍缺乏以下方面相关的依据：如何衡量新兴风险的严重程度、普遍性和持续时间；这些风险在现实中可在多大程度上得到缓解；如何有效地鼓励或强制不同参与者采取缓解措施。随着AI模型被赋予越来越大的自主性和权限，以及AI当前的发展趋势，我们需要开展更多研究，了解不同风险的普遍程度以及在世界不同地区（尤其是亚洲、非洲和拉丁美洲等正在快速数字化的地区）的差异程度。

随着通用AI风险科学的进步，风险管理方法也需要不断发展。部分风险缓解措施正日益普及，但仍需开展更多研究，了解不同群体和中小企业等AI参与者在实践中风险缓解和保障措施的有效性。获取更多关于模型实际部署和使用情况的数据对于此类评估至关重要。此外，目前领先的AI企业在风险管理方面采取的措施差异很大。有观点认为，开发人员的激励机制与全面的风险评估和管理并不匹配。目前，关于不同自愿承诺的履行程度、公司在完全遵守承诺方面面临的障碍以及如何将前沿AI安全框架整合到更广泛的AI风险管理实践中，这些问题及其解决办法相关的依据仍然不足。

决策者面临的主要挑战包括如何确定通用AI带来的各种风险的优先级，明确哪些参与者最适合参与到风险缓解的实践中，以及了解影响其行动的激励因素和制约因素。有证据表明，决策者目前难以获取AI开发人员和部署人员如何测试、评估和监控新兴风险以及不同缓解措施的有效性的相关信息。研究人员和决策者已探讨了提高透明度和建立更系统的事件报告机制，作为确定风险优先级、促进信任和激励负责任开发的可能途径。实际上，风险管理涉及AI价值链上的多个参与者，例如数据和云提供商、模型开发人员和模型托管平台，不同参与者的风险评估和风险管理的场景不同。这些参与者之间信息共享有限，难以确定发生概率最大或影响最大的风险，尤其是在考虑下游社会影响时。