对抗性机器学习：安全威胁与防范措施

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序把安全装进口袋

网络安全

前言

对抗性机器学习（Adversarial Machine Learning, AML）是一个迅速发展的研究领域，专注于探索机器学习系统所面临的安全与脆弱性风险。随着机器学习算法在各行各业的广泛应用，恶意攻击者利用这些系统谋取私利的威胁也在不断增加。

AML攻击的潜在后果十分严重。这类攻击不仅可以干扰人工智能系统的正常运行，还可能危及敏感数据和信息的安全。例如，如果AML攻击针对某金融机构的人工智能系统，可能导致错误的股市预测或不当访问客户的个人信息。

一、机器学习中的对抗性攻击类型

随着机器学习系统在日常生活中的普及，确保其安全性和抵御恶意攻击的能力变得愈发重要。对抗性攻击是针对机器学习算法的一类威胁，旨在利用其脆弱性，导致模型产生错误或偏见的输出。这些攻击可能产生严重后果，从个人数据的泄露到人身安全的威胁等。

在机器学习模型面临的多种对抗性攻击中，每种攻击方式具有不同的目标和技术。在人工智能系统中，常见的对抗性攻击方法可参考《OWASP前10大LLM应用指南》。

1731036106_672d83cad62d9237b9773.png!small?1731036106936

规避攻击

规避攻击，又称对抗性攻击或主动攻击，是对抗性机器学习领域中一种常见的攻击类型。这种攻击通过对输入数据的精巧修改，旨在欺骗机器学习模型，使其产生错误分类。由于其在现实场景中可能导致严重后果，规避攻击对机器学习的安全构成了重大威胁。

现实案例：
一个著名的规避攻击案例是谷歌研究人员进行的实验，他们通过在图像上添加小贴纸成功地欺骗了一种最先进的图像识别系统，使其错误分类。这些贴纸上含有巧妙设计的图案，尽管人眼几乎无法察觉，却使目标系统的图像分类错误率高达73%。

1731036164_672d8404a5bbe6743371e.png!small?1731036166450

中毒攻击

中毒攻击，又称为数据中毒或模型训练操控攻击，对机器学习（ML）系统的完整性和安全性构成了重大威胁。此类攻击通过向训练过程中引入有害或误导性的数据，旨在操控模型在推理时的性能，可能导致错误的预测、用户隐私泄露，甚至在自动驾驶汽车及医学诊断等关键应用中造成严重后果。

数据中毒与模型训练操控：
数据中毒攻击涉及向用于训练模型的数据集中注入恶意数据。这可能发生在数据收集阶段，也可能是在现有数据集中进行修改。其目标是故意导致模型产生错误的预测，尤其是在未知数据上处理时产生偏差。模型训练操控攻击则涉及直接操控模型学习算法的某些特性，而不进行直接的数据干预。这种攻击需要攻击者具备较高的专业知识，能够识别并利用算法实现的潜在弱点。

1731036185_672d84195ec5dbaf99a12.png!small

模型推理攻击

模型推理攻击，也被称为模型提取攻击，是一种旨在窃取经过训练的机器学习模型所包含信息的对抗性机器学习攻击。这类信息对攻击者尤为重要，因为它们允许攻击者复制或逆向工程该模型的功能，并将其用于恶意目的。

盗取机密模型信息
盗取机密模型信息在机器学习领域引发了日益严重的关注。随着人工智能的应用日益广泛，敏感模型信息的价值和脆弱性愈发显著。
主要威胁：
知识产权盗窃：公司在开发先进的机器学习模型上投入了巨额资源，这些模型不仅是工具，更是维持竞争优势的核心。如果这些信息被不法分子窃取，可能导致严重的财务后果。
隐私与安全风险：许多机器学习模型是在敏感数据上进行训练的，例如个人和财务信息。如果模型遭到攻击，将可能泄露个人数据，增加身份盗窃及其他恶意活动的风险。

二、对抗性机器学习攻击的技术

对抗性机器学习攻击已成为人工智能领域的主要威胁，因此，了解并有效抵御此类攻击至关重要。这些攻击利用机器学习算法的脆弱性来操控输出，对安全系统、自动驾驶汽车和医疗技术等敏感应用构成严重风险。因此，组织和研究人员必须深入了解各种对抗性机器学习攻击技术，以制定有效的防护措施。

攻击者可以使用多种技术发起对抗性机器学习攻击，其中一种常见技术是规避攻击或数据中毒攻击。这涉及故意操控用于训练人工智能系统的数据，从而误导其决策过程。攻击者通过向训练数据集中添加不可察觉的噪声或改变某些特征，进而导致人工智能系统在测试时做出错误的预测。

已在FreeBuf发表 0 篇文章

本文为独立观点，未经允许不得转载，授权请联系FreeBuf客服小蜜蜂，微信：freebee2022