一次针对Web Agent的系统性安全测试
或许结果没有想象的那么乐观
真实世界中的 Web Agent 安全问题
Web Agent(网页智能体)是一类新型的、能够自主理解、规划并操作网页和完成任务的智能体。随着大型语言模型(LLM)和智能体框架的快速演进,Web Agent 正在从“能理解网页”向“能真实操作网页”迈进。通过结合 LLM、浏览器自动化、多模态感知与任务规划能力,Web Agent 已经具备了点击、填写、键入、跳转等完整的网页操作功能,使得模型可以像人类一样,在真实网页环境中自动完成复杂任务。
然而,当智能体获得操作能力的同时,其安全风险也随之被放大——

▲ Web Agent安全挑战 ▲
当攻击意图直接来自用户输入时,Web Agent 是否会在任务执行过程中被诱导产生越权、危险或不可逆的操作行为?
当提示词被隐蔽地嵌入网页内容之中,人类几乎不可察觉的信息,是否会被模型发现并对决策过程产生实质性影响?
在复杂网页结构与交互流程下,误导性页面元素是否会诱使 Web Agent 触发真实的点击与操作行为?
这些问题的出现,正在成为 Web Agent 落地应用与安全治理过程中无法回避的核心挑战,同时也使得 Web Agent 在真实网页环境中的表现,远远超出了我们传统的安全评估方式。
Web Agent的安全性,我们充分了解了吗?
为了回答上述问题,并全面了解 Web Agent 在现实环境中的安全性,我们进行了一次系统性的安全评估。首先,我们实现在人工干预的情况下,可以自动化批量测试web agent安全性能;其次,我们突破了以往研究只关注单一攻击视角的局限,首次将恶意用户指令、恶意提示注入以及欺骗性网页设计三类攻击纳入同一评测框架。
数据集构建:覆盖三类核心攻击维度
围绕 Web Agent 在真实网页环境中的安全风险,我们系统性收集并修改了三类具有代表性的攻击数据集(BrowserArt、EIA、AgentBait),涵盖了来自真实网页场景的多种攻击手段,共1226个高度贴近真实 Web 环境中可能出现的风险形态的任务,为我们提供更加真实、全面的测评结果。

▲数据集中的任务数量以及威胁来源▲
1. 恶意用户提示
攻击直接来自用户输入,通过看似合理但具有误导性的指令,引导 Agent 执行高风险操作→评估智能体在面对直接来自用户的恶意指令时的鲁棒性,测试智能体的安全边界和拒绝机制。

▲ 恶意用户提示示例 ▲
2. 恶意提示注入
攻击隐藏在网页内容中,以不可见、结构化或跨模态的方式,干扰模型的决策逻辑→评估智能体如何处理包含隐藏提示词或旨在劫持对话上下文的命令的网页内容。

▲ 恶意提示注入示例 ▲
3. 欺骗性网站设计
网页本身并不包含明确“攻击文本”,但通过布局、视觉和交互设计,诱导 Agent 点击危险元素→测试智能体识别和抵御旨在诱骗用户进行意外操作的暗黑模式或误导性界面元素的能力。

▲ 欺骗性网站设计示例 ▲
WebTrap Park 安全榜单
我们构建并上线了WebTrap Park平台,包含此次测试的数据集概览以及针对不同 Web Agent 和模型的安全排行榜单。我们超越了传统的以日志分析为核心的评估方法,通过网页插桩的方式,对多种主流 Web Agent 和模型在真实攻击场景下进行了系统性的端到端安全测量与对比分析。本榜单包含SeeAct、BrowserUse、AgentE、Skyvern等主流的 Web Agent,以及GPT-4o、Claude-4-Sonnet、o3等多种大模型。我们通过对1226个任务的评测,全面衡量了这些智能体在不同攻击场景下的表现。部分测评结果如下图所示。

榜单详情请见我们的 WebTrap Park 平台:http://security.fudan.edu.cn/webagent
我们惊讶地发现,所有被测试的Web Agent 在安全任务中都出现了不同程度的失败。即便是表现最好的基于GPT-4o的AgentE,其防御得分也只有77.42,意味着在我们设计的真实攻击场景中,它有接近四分之一的任务会做出不安全或错误的操作,远低于我们预期的安全标准。这一结果表明,无论是基于更强大模型的Agent,还是引入规划和反思机制的复杂系统,它们在面对现实中的恶意攻击时,都难以稳定保持安全行为。
值得注意的是,我们在多种智能体和模型中都观察到了类似的防御失败的情况。虽然不同模型之间存在一定差异,但这种差异远不足以成为“安全”与“不安全”的分界线。因此,问题的根源并非仅在于优化参数或更换模型,而是一个系统性风险。
本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf
客服小蜜蜂(微信:freebee1024)



