随着人工智能技术的快速发展与安全威胁的持续演变,大规模保护人工智能系统、应用及用户所面临的挑战,不仅要求开发者掌握已有的安全编码最佳实践,还需深入理解人工智能特有的隐私与安全风险。
在此背景下,Google发布了AI安全框架SAIF(Secure AI Framework),旨在帮助减轻AI系统特定的风险,如窃取模型、训练数据的数据污染、通过提示注入注入恶意输入和提取训练数据中的机密信息。
本文梳理SAIF的六大核心要素以及SAIF风险地图框架,为在快速发展的人工智能世界中构建和部署安全人工智能系统提供参考。
SAIF基于六大核心安全原则:
• 继承互联网时代的安全防护经验,将默认安全(Secure-by-default)机制延伸至AI基础设施
• 建立专业化AI安全团队,持续跟踪技术演进并优化防护体系
• 针对新型攻击模式(如提示注入攻击)优化防御策略,采用输入净化、权限限制等成熟防护手段
• 建立AI系统输入输出监控机制,实时检测异常行为
• 整合威胁情报系统,构建预测性防御能力
• 建立跨部门协同机制,联动信任安全、威胁情报和反滥用团队
• 运用AI技术提升安全事件响应效率与规模
• 构建动态防御能力,通过对抗性训练提升系统韧性
• 采用成本效益优化的防护策略,应对AI赋能的规模化攻击
• 实施跨平台安全控制框架,确保防护策略一致性
• 将安全防护深度集成至AI开发全流程(如Vertex AI平台)
• 通过API级防护(如Perspective API)实现规模化安全赋能
• 建立持续学习机制,基于事件反馈优化防护模型
• 实施战略级防御调优:更新训练数据集、构建行为异常检测模型
• 定期开展红队演练,完善AI产品安全验证体系
• 实施端到端风险评估,涵盖数据溯源、验证机制等关键环节
• 构建自动化检测体系,持续监控AI系统运行状态
• 建立业务场景化风险评估模型,实现精准风险管控
SAIF风险地图将 AI 开发划分为数据层、基础设施层、模型层、应用层四大核心领域,构建了比传统软件开发更全面的风险评估框架:
核心差异:AI 开发中数据取代代码成为核心驱动要素,模型权重(训练数据编码的模式)成为新攻击目标,其安全性直接影响模型行为。
SAIF数据层包含三大要素:
核心作用:支撑数据与模型全生命周期的硬件、代码、存储及平台安全,需兼顾传统与 AI 特有的风险。
SAIF基础设施层风险要素包括:
核心功能:通过训练数据提取的统计模式生成输出(推理),需强化输入输出控制。
SAIF模型层包含:
核心风险:用户交互模式变革引入新攻击面(如自然语言 prompt 直接影响 LLM 推理),代理工具调用增加传递性风险。
SAIF应用层风险要素包含:
核心风险:通过篡改训练数据(删除、修改或注入对抗数据)降低模型性能、扭曲结果或植入后门,类似恶意修改应用逻辑。
攻击场景:训练 / 调优阶段、数据存储期或采集前(如污染公共数据源、内部人员投毒)。
缓解措施:数据净化、访问控制、完整性管理。
核心风险:使用未授权数据训练(如用户隐私数据、侵权版权数据),引发法律 / 伦理问题。
暴露环节:数据采集、处理或模型评估阶段未过滤非法数据。
缓解措施:严格数据筛选与合规检查。
核心风险:通过供应链攻击或内部人员篡改模型代码、依赖项或权重,引入漏洞或异常行为(如架构后门)。
攻击影响:依赖链传递风险,后门可抵御重新训练。
缓解措施:访问控制、完整性管理、默认安全工具。
核心风险:超范围收集、存储或共享用户数据,违反政策法规(如用户交互数据、偏好数据)。
暴露问题:数据元数据管理缺失或存储架构未设计生命周期控制。
缓解措施:数据过滤、自动化归档 / 删除、过期数据预警。
核心风险:未经授权获取模型(如窃取代码或权重),涉及知识产权与安全风险。
攻击场景:云端 / 本地存储、硬件设备(如物联网终端)。
缓解措施:强化存储与服务安全,访问控制。
核心风险:篡改部署组件(如服务框架漏洞)导致模型行为异常。
攻击类型:修改部署工作流、利用 TorchServe 等工具漏洞远程代码执行。
缓解措施:默认安全工具加固服务基础设施。
核心风险:通过高资源消耗查询(如 “海绵示例”)导致模型不可用,包括传统 DoS 和能耗延迟攻击。
攻击影响:拖垮服务器或耗尽设备电池(如物联网终端)。
缓解措施:应用层速率限制、负载均衡、输入过滤。
核心风险:通过输入输出分析克隆模型(如高频 API 调用收集数据),用于仿造或对抗攻击。
技术手段:基于输入输出对重建模型,与模型窃取不同。
缓解措施:API 速率限制、应用层访问控制。
核心风险:插件 / 库漏洞被利用,导致未授权访问或恶意代码注入(如操纵输入输出引发链式攻击)。
攻击关联:与提示注入相关,但可通过投毒、规避等多种手段实施。
缓解措施:严格组件权限控制,输入输出验证。
核心风险:利用提示中 “指令 - 数据” 边界模糊性,注入恶意命令(如越狱攻击 “忽略此前指令”)。
攻击形式:直接输入或间接从文档 / 图像等载体注入(多模态场景)。
缓解措施:输入输出过滤、对抗训练。
核心风险:轻微扰动输入(如贴纸遮挡路标)导致模型错误推理,影响安全关键系统。
技术手段:对抗样本、同形异义词攻击、隐写术编码。
缓解措施:多样化数据训练、对抗测试。
核心风险:模型输出泄露训练数据、用户对话或提示中的隐私信息(如记忆性数据、日志存储漏洞)。
泄露途径:用户查询日志、训练数据记忆、插件集成漏洞。
缓解措施:输出过滤、隐私增强技术、数据去标识化。
核心风险:模型通过输入推断未包含在训练数据中的敏感信息(如用户属性、隐私关联)。
风险差异:与 SDD 不同,非直接泄露训练数据,而是推断关联信息。
缓解措施:输出过滤、训练阶段敏感推断测试。
核心风险:未经验证的模型输出包含恶意内容(如钓鱼链接、恶意代码)。
攻击场景:意外触发或主动诱导生成有害输出。
缓解措施:输出验证与净化。
核心风险:代理工具因输入扰动或恶意攻击执行意外操作(如权限过度导致系统受损)。
风险类型:任务规划错误(意外)或提示注入诱导(恶意)。
缓解措施:最小权限原则、人工审核介入。
SAIF 的设计灵感融入了对 AI 系统特有安全趋势和风险的深度理解。Google指出建立覆盖公私部门的统一框架至关重要,这能确保技术开发者与应用者共同守护支撑 AI 发展的底层技术,让 AI 模型从部署之初即具备“默认安全”能力。
参考来源: