大模型能力的突破为我们的生活带来了前所未有的变化。有的人期盼着通用人工智能的到来,而有些人则担心“终结者”变成现实。但是,我们真的已经准备好迎接拥有大模型的世界了么? 本工作系统性地研究了大语言模型应用中因能力边界模糊而引发的新型安全风险。LLM 应用的开发范式相较于传统应用发生根本转变,开发者不再“实现功能”,而是“限制能力”,即利用大语言模型的部分能力实现特定的任务需求。此时,不当的应用设计可能为大模型滥用提供无穷的入口,“We can do anything by using any application”。本文呼吁社区关注LLM应用设计的安全性,建立更健壮的 LLM 应用开发规范与平台安全机制。
“The more the people, the less control.” 大模型应用为普通用户提供了广泛的大模型使用入口,可以使用大模型的能力,而无需考虑使用门槛。一旦应用开发缺乏安全考虑,这些广泛的入口可能被攻击者利用,通过任意一个应用实现“one for all”的能力,即突破应用开发者的应用限制,滥用背后的基座大模型执行任意任务。 这里介绍一个潜在的业务场景案例。在Web3企业中,操作员操作的合规性关乎到用户资金的安全性,因此需要对其严格审查。一些Web3企业引入了基于LLM审计机器人来审查操作员操作的合规性,如图1a所示。如果审查合格,则操作正常进行,如果操作存在异常,则会直接告警,并进行人工审查。在这个步骤中,一个恶意的操作员可以通过特定的操作或者prompt弱化基于LLM的审查机器人的能力,绕过审查,进而窃取用户资产。该场景中,恶意操作的输入不会违反当前LLM的基础约束,仅仅是降低应用在特定任务上的能力,如图1b所示。 其次,一个应用即使没有被完全越狱,仍有可能被滥用于其原始任务之外的任务。比如,操作员可以通过精心设计的输入,迫使审查机器人执行额外的任务,进而滥用公司资产进行营利,如图1c所示。
image-11.png 图 1 LLM应用能力边界潜在风险案例图
真实事件: 2025年初,当tiktok的美国用户大量涌入小红书时,小红书迅速上线了基于LLM的翻译功能。虽然基于LLM的翻译迅速的缓解了小红书的多语言支持问题,但是该功能很快被网友滥用,被绕过了应用的能力限制,可以执行任意的任务。
image-10.png 图 2 小红书翻译功能被滥用
在新的开发范式下,应用的内涵已经发生变化。开发者已经不再需要针对目标任务开发特定的功能,而是利用大模型的能力来完成目标任务。大模型已经在很多任务上表现出了非常强大的能力,开发者需要从中圈定目标任务所需的能力,同时限制其他能力,进而为用户提供一个可以解决目标任务的“LLM 应用”。
image-8.png 图 3 能力空间示意图
本工作将LLM应用程序的能力空间定义为:
本文将LLM应用能力空间边界风险概括为下面3种场景。 (1)能力降级。能力降级的目的是削弱应用程序在其主要的预期任务上的性能。攻击者使用特定的输入在应用程序的能力边界中造成“漂移”(图4a),迫使它产生不正确的输出。 (2)能力升级。能力升级的目标是扩展应用程序的能力空间,使其能够执行超出其最初预期范围的任务。但是,它不允许任意任务执行,因此是在完全功能越狱之前的中间状态。通过精心设计的输入,攻击者可以诱导应用程序执行超出其定义的功能边界的任务。如图4b所示,其中App1的功能被扩展到包括App2的功能。 (3)能力越狱。能力越狱的目标是同时绕过应用程序预期的功能限制和底层基础LLM的安全约束,从而使应用程序能够执行任意任务。在这种状态下,应用程序的功能边界被完全破坏,攻击者可以使用精心设计的输入来滥用应用程序来执行任何任意任务,如图4c所示。
image-7.png 图 4 能力边界风险示意图
为了评估能力边界风险对LLM应用生态系统的影响,本文设计了一个LLM应用评估框架 LLMApp-Eval。
image-9.png 图 5 LLMApp-Eval框架图
本文收集了来自4个LLM应用平台(包括GPTs store,Coze,AgentBuilder和Poe)的807,207个应用程序的元数据。其中收集了agentbulider上部分应用公开的 prompt。然后,借鉴工作[1]使用NLI-based Zero Shot Classification模型对应用进行分类。
通过分析流行应用的prompt设计原则,本文结合 Anthropic [2] 和 Google [3] 白皮书的agent设计指南,设计了4个维度的指标,包括目标、步骤、能力和限制。 目标(TScore):关注prompt中应用的目标介绍的清晰度。 步骤(PScore):关注是否具有引导性的步骤。 能力(CaScore):关注能力描述的详细程度。 限制(CoScore):关注明确的能力限制说明。 最终对4个维度的分数进行加权组合:
image-3.png
为了全面地评估LLM应用所面临的风险,本文针对三类风险构造专门的任务集合。 能力降级。 通过评估间接提示注入如何影响LLM在同一任务上的性能,来间接的评估能力降级风险。如图
image-6.png 图 6 Llama-3.1-8B上的边界案例情况示例。通过嵌入精心制作的对抗句子(红色),一份无法通过评估的简历可以成功地逃避LLM助手的筛选。该场景模拟来企业LLM招聘系统。
能力升级。 本文基于之前确定的应用类型构建了一个跨类别的测试用例集。本文假设是如果A类应用程序(App 1)可以执行B类应用程序(App 2)的任务,那么App 1则面临能力升级的风险。具体主要构造了下面三种类型的测试样例。
能力越狱。 首先构建一个包含各种恶意问题类型的测试用例集。然后,重现了最先进的越狱技术 [4 ,5, 6, 7],以生成对抗性测试用例。
百度Map插件。image-5.png 图 7 GPTs上的超级开发者
限制(CoScore)这个维度呈现出两极分化的趋势。43.41%的应用程序没有添加任何功能约束,对于添加了限制的应用中有20%的得分低于60分。(1)能力降级 本文使用2790对边界测试用例评估了6个开源LLM。结果表明,大多数模型受到插入的误导信息的影响。Mistral受影响最大,有993例出现错误反应,而LLaMA表现最好,但仍有668例出现错误响应。如果应用基于这样的模型来构建,并且加入其他的防御措施,那么它将可能遭受能力降级风险。
表 1 LLM的能力降级实验 image-4.png
(2)能力升级
表 2 能力升级和能力越狱测试结果 image-2.png
image-1.png 图 8 四个平台LLM应用的能力升级实验结果绿色表示应用程序的原始类型。橙色的强度表示应用程序完成的来自该类型的测试用例的比例;颜色越深,比例越高。
Web搜索和DALL·E图像生成,使其应用具有出色的多模式输入/输出和实时信息检索能力,也为能力升级提供了可能。相反,Coze 和 AgentBuilder 则缺少这些能力的支持,或者需要特定的配置。(3)能力越狱 178个(89.45%)应用程序易受能力越狱的影响,至少完成了一个恶意任务。并且,有17个应用程序在没有使用对抗技术的情况下直接执行了恶意任务。
image.png 图 9 不同平台流行度前50应用的能力越狱实验结果
本文探索了LLM应用开发实践中的风险,剖析了在新的开发范式下,LLM应用面临的潜在新风险点。通过大规模的现实评估,本文揭示了当前LLM应用开发中缺乏足够的安全考虑,能力空间边界不明确,导致应用可被滥用。伴随着LLM应用在现实生活中的广泛普及,其安全风险将变得更加不容忽视。为避免任意应用成为攻击的入口,本文呼吁社区关注LLM应用设计的安全性,建立更健壮的 LLM 应用开发规范与平台安全机制。