
针对AI系统和基础设施的攻击已开始在实际场景中显现,安全专家预计未来数年此类攻击将显著增加。在追逐AI效益的热潮中,多数企业在部署AI工具和应用场景时忽视了安全加固工作。专家警告称,许多组织尚未做好检测、防御或应对此类攻击的准备。
南佛罗里达大学Bellini人工智能、网络安全与计算学院副教授John Licato指出:"大多数人都意识到这类攻击的可能性,但很少有人真正了解如何有效降低风险。"
AI系统主要威胁类型
针对AI系统的攻击形式多样:数据投毒发生在训练阶段;对抗性输入出现在推理阶段;而模型窃取则发生于部署环节。以下是安全专家重点警示的九大AI基础设施威胁,部分攻击虽仍属理论范畴,但已有不少在真实环境中被发现或通过PoC验证。
数据投毒攻击
攻击者通过操纵、篡改和污染用于开发或训练AI系统(包括机器学习模型)的数据,使模型输出产生偏差或错误。安全培训机构SANS的首席研究官Robert T. Lee举例说明:"这种攻击可能让模型将绿灯识别为停止信号,其目的就是破坏模型输出质量。"
模型投毒攻击
此类攻击直接针对模型架构或参数进行篡改,导致输出结果失真。某些定义下,通过数据投毒破坏训练数据导致的模型异常也属于模型投毒范畴。
工具投毒攻击
Invariant Labs在2025年春季发现的新型攻击方式,其通过Model Context Protocol(MCP)漏洞,在工具描述中嵌入恶意指令。星座研究公司副总裁Chirag Mehta解释:"这种攻击实质是腐蚀MCP层,诱使Agent执行异常操作。"
提示注入攻击
攻击者构造看似合法但内含恶意指令的提示词,诱导大语言模型突破安全限制。全球咨询公司Ducker Carlisle首席数据与AI官Fabien Cros表示:"提示注入能彻底改变AI Agent的预期行为。"近期已出现多起典型案例,包括让ChatGPT自我注入恶意提示、文档宏嵌入攻击等。
对抗性输入攻击
黑客向模型输入精心设计的扰动数据(通常为细微改动或噪声),这些输入能逃过安全检测却足以干扰模型判断,属于典型的规避攻击手段。
模型窃取/提取攻击
攻击者通过公开API反复查询模型,根据输出响应逆向还原模型架构、参数甚至训练数据。普华永道全球威胁情报总监Allison Wikoff指出:"这实质上实现了工具的未授权复制。"
模型反演攻击
通过"反演"模型输出,攻击者试图重构或推断出原始训练数据。这种特殊提取攻击利用模型输出来逆向推导输入信息。
供应链风险
AI系统依赖开源代码、第三方模型等组件,任何组件的安全漏洞都将传导至整个系统。近期研究显示,AI供应链威胁正在加剧而安全实践明显滞后。
越狱攻击
攻击者通过角色扮演、编码混淆等技术使AI系统(主要是LLM)突破行为约束,可能引发恶意代码生成、敏感数据泄露等后果。Licato教授指出:"这是强大推理系统必须面对的双刃剑。"
AI威胁应对策略
在业务部门追逐AI效益时,CISO必须将AI安全提升至战略优先级。黑客众测平台HackerOne调查显示,84%CISO已负责AI安全,82%监管数据隐私。星座研究Mehta强调:"AI安全需要管理层支持与跨部门协作,数据治理是基础保障。"
应对措施包括:
- 部署前严格评估AI模型
- 运行中持续监控系统行为
- 采用红队测试模型健壮性
- 实施对抗性训练增强防御
- 采用MITRE ATLAS框架识别TTPs
普华永道网络与风险创新研究院负责人Matt Gorham指出:"CISO的关键任务是在构建基础设施时前瞻性考虑攻击场景。"尽管面临研究不足、资源有限等挑战,但专家一致认为:在AI竞赛中,安全绝不能成为事后考量。
参考来源:
本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf
客服小蜜蜂(微信:freebee1024)



