Hugging Face API令牌暴露，大批生成式AI模型岌岌可危

布加迪新闻刚刚发布

1657

导语：安全公司Lasso Security发现，1600多个Hugging Face API令牌暴露，这将为访问代码存储库中包含的生成式AI和大语言模型提供了可趁之机。

Lasso Security的研究人员近日在代码存储库中发现了1681个暴露的Hugging Face API令牌，这使谷歌、Meta、微软和VMware等厂商面临潜在的供应链攻击。

Lasso Security在发布的声明中表示，暴露的API令牌使其研究人员能够访问723家组织的GitHub和Hugging Face代码存储库，这些代码库含有大语言模型和生成式AI项目方面的高价值数据。数据科学社区和开发平台Hugging Face表示，它拥有超过50万个AI模型和25万个数据集。

暴露的API令牌使众多组织的生成式AI模型和数据集面临各种威胁，包括供应链攻击、训练数据中毒和模型被盗。其中655家组织的令牌具有写权限，这使得研究人员可以全面访问代码存储库。

一些可以全面访问的代码存储库面向诸如开源的Meta Llama 2、EleutherAI的Pythia和BigScience Workshop的Bloom之类的平台和大语言模型。

Hugging Face在声明中表示，所有暴露的API令牌现都已被撤销，但该公司似乎将责任主要归咎于客户。由于用户在Hugging Face Hub和GitHub等平台上发布了令牌，这些令牌被暴露。Lanyado表示，Hugging Face也有责任，并建议它应该不断扫描暴露的API令牌，要么直接撤销，要么通知用户。

Meta、谷歌、微软和VMware等许多组织和用户非常迅速地采取了行动，他们在报告发布的同一天就撤销了令牌，并删除了公共访问令牌代码。

搜索API令牌

随着大语言模型和生成式AI模型大行其道，Lasso Security希望更仔细地研究Hugging Face的安全性，毕竟这是开发者社区的一个关键平台。研究人员决定使用该平台的搜索功能扫描Hugging Face和GitHub上的代码存储库，以寻找暴露的API令牌。

研究人员在使用正则表达式（regex）搜索代码时遇到了障碍，最初的搜索在GitHub上只获得了前100个结果。然后，研究人员搜索HuggingFace API令牌正则表达式，以查找用户和org_api令牌，返回了数千个结果。然而，他们只能读取其中的100个结果。

在Hugging Face上扫描暴露的API令牌来得更困难，因为该平台不允许使用正则表达式进行搜索，于是研究人员改而通过子字符串搜索API令牌。

在扫描这两个平台上的代码存储库之后，研究人员使用了“whoami”HuggingFace API调用，结果不仅提供了单个令牌的有效性，还提供了用户的姓名、电子邮件、组织以及令牌及其他信息的权限和特权。

研究人员发现了另一个与Hugging Face的org api令牌有关的问题，该公司之前已经弃用了这些令牌，还通过检查登录函数中的令牌类型来阻止它们在Python库中的使用。然而，通过对库中的登录函数进行小幅改动，org_api令牌的读取功能依然适用。

尽管令牌已被弃用，但研究人员发现他们可以使用暴露的org_api令牌从代码存储库下载私有模型。举例来说，研究人员获得了读取和下载来自微软的私有大语言模型的能力。

鉴于这些暴露，Lanyado建议组织在对生成式AI项目和大语言模型进行代码审查时采用令牌分类，并避免任何硬编码令牌。在快速发展的数字环境中，早期检测对于防止潜在危害、保护大语言模型具有重要意义。

文章翻译自：https://www.techtarget.com/searchsecurity/news/366562216/Exposed-Hugging-Face-API-tokens-jeopardized-GenAI-models如若转载，请注明原文地址

分享至

感谢您的支持，我会继续努力的!

扫码支持

打开微信扫一扫后点击右上角即可分享哟

你可能感兴趣的