AI 如何赋能恶意软件分析
2023-12-7 23:56:52 Author: mp.weixin.qq.com(查看原文) 阅读量:13 收藏

VirusTotal 横跨 195 个国家/地区每天处理超过 200 万个文件,近二十年的运营使其收集了规模庞大的样本文件库。2023 4 月,VirusTotal 推出了利用 AI 的代码分析工具 Code Insight。历经半年多的使用,已经对数十万个文件测试了 AI 在该场景下的能力。AI 为安全赋能的前景光明,VirusTotal 只是走出了一小步。Google 在《2024 年网络安全态势预测》中也指出,防御者将会使用生成式 AI 来加强检测、加快分析效率。

VirusTotal 目前提供了三个 AI 驱动的代码分析引擎,可以尝试理解恶意代码的用途并且为分析人员提供更多的上下文信息。这样可以将需要高度专业知识的恶意软件分析工作,一方面减少分析所需时间,另一方面降低难度门槛,使得分析人员可以尽早发现恶意攻击。

样本行为的描述其实比恶意与否的二元判断更有价值,对分析人员来说,缺乏足够的上下文很难对样本文件进行恶意性判定。

使用小样本集将 AI 引擎与传统引擎的检测进行对比。对于 Office 文件,AI 引擎与传统引擎可以在 98.5% 的情况下达成一致。对于 PowerShell 文件,AI 引擎与传统引擎可以在 96.23% 的情况下达成一致,产生分歧的主要原因是缺乏上下文。对于 PHP 文件,AI 引擎与传统引擎可以在 72.45% 的情况下达成一致,AI 引擎更适合源代码分析,能够更好地进行去混淆

在传统引擎检出恶意,但 AI 引擎不认为是恶意的情况下,分析人员认为主要在于判断标准存在分歧。并不是 AI 引擎的判断是错误的,AI 引擎对脚本行为的描述还是正确的。AI 引擎的最大好处其实是判断样本文件类型,文本文件的分类是一个非常困难的问题。引入 AI 引擎后多达一百多种文本文件格式都能够识别的更加准确,如 MathematicaQMLRRustLua 甚至 LAMMPS

常见漏洞与漏洞利用发现

传统方式(检测引擎和社区规则)只能识别出 AI 引擎所有检出的 25.6%。即便是二者都识别出了漏洞利用存在,二者也会存在分歧,53.4% 的情况都是 AI 引擎更准确AI 引擎不仅可以分析脚本文件代码中的注释和引用,还能够基于漏洞利用技术进行检测。即便是传统方式检出而 AI 引擎没有检出的情况下,AI 引擎也仍然给出了准确的行为描述与具体漏洞利用的实施方式。

当然,其实判断边界本身就很模糊。例如漏洞扫描器、POC 脚本Metasploit模块甚至是存在漏洞的源代码,都与漏洞本身有关。POC 脚本与恶意脚本之间的边界也是非常模糊的。如下所示,尽管检测引擎对 Metasploit 模块的静态检出率较低,但其实反病毒产品的主防往往是可以检出的。

AI 引擎检出的所有恶意脚本文件,其中 41% 都没有传统检测引擎检出,如下所示:

当然,AI 引擎检出的恶意脚本实际上是很宽泛的,例如会包括非 Windows 系统的提权操作等。有人声称这些恶意行为可能并不是传统检测引擎关注的重点,这样的比较不公平。但其实,这样也能说明二者其实恰好存在良好的互补性

当然,AI 引擎在判断带有下载与执行功能的脚本时还会“犹豫”。但当给予 AI 引擎更多的上下文时,还是能够给出准确的判断,这说明模型其实还有改进和提升的空间。

AI 生成恶意软件

目前生成式 AI 已经席卷全球,VirusTotal 也常问一个问题:“有没有发现任何 AI 生成的恶意软件?”。当然,判断恶意软件是由 AI 生成的是非常具有挑战的任务。此前,美国国家安全委员会网络和新兴技术国家安全顾问 Anne Neuberger 声称“观察到朝鲜黑客正试图使用 AI 技术来帮助加速编写恶意软件与寻找可利用的系统”。但 VirusTotal 深入研究了朝鲜黑客过往的攻击行为,并未发现明显的证据能支撑这一论点。

在地下论坛中,很多恶意软件生成工具都声称已经使用 AI 引擎来创建样本文件。但在此类恶意样本中,研究人员并未发现能良好运行的样本文件。VirusTotal 预计攻击者未来会利用 AI 引擎进行社会工程学攻击,形成全球普及的趋势

上图为在图标、名称与元数据上伪装成 Google Bard 或 OpenAI ChatGPT 进行分发的恶意样本的趋势情况,2023 年此类样本量不断增加。其中 88% 是 Windows 系统的木马,少部分是 Android 样本。

除了恶意样本外,也有大量的恶意域名和 URL 使用 ChatGPT 的图标

2023 年,VirusTotal 也发现了与 OpenAI API 存在交互的恶意样本越来越多。大多数都是 Windows 可执行文件,其次是 Office 文件。Office 文件是通过其他扩展功能(如 VBA-WEB 或 SEMTools)与 OpenAI 的 API 进行交互的。

目前发现的可能是 AI 生成的恶意软件,应该都是安全研究人员生成的,有些甚至在样本中还包含提示词。

总结

AI 引擎在很多场景下都已经展示出了令人难以置信的非凡潜力。传统引擎给出确定的结论其实还是存在理解鸿沟的,但 AI 引擎能够给出结论背后的推理过程,这对任何分析人员来说都是巨大的优势。

恶意软件样本量越来越多,使用人工智能技术来识别、分析与解释恶意脚本的实际意图也有利于行业的发展。而且技术的更新也有利于解决目前劳动力短缺的问题,毕竟各国的网络安全从业人员其实都是大大短缺的。

点击阅读原文跳转查看 VirusTotal 原始报告。

文章来源: https://mp.weixin.qq.com/s?__biz=MzkyMzE5ODExNQ==&mid=2247486769&idx=1&sn=fd1be19b5616912bb11097a022f7f6d0&chksm=c1e9fafdf69e73eb285dd19e64e2302a1b5b17acd14b8ceb210cf2d30211777070cb09906620&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh