
Checkmarx最新研究表明,AI Agent所依赖的人机交互(HITL)安全机制可能被攻破,攻击者能够将其武器化来运行恶意代码。HITL对话框作为最后一道安全防线(即"最终确认"环节),通常会在执行敏感操作(如运行代码、修改文件或访问系统资源)前触发。
"谎言循环"攻击伪造审批对话框
研究人员将这种技术命名为"谎言循环"(Lies-in-the-Loop,LITL),攻击者通过特殊构造的AI提示词嵌入恶意指令,从而误导用户审批对话框的内容。研究结果表明,单纯依靠人工审核环节已无法有效防范提示词层面的滥用。当用户无法确信审批内容的真实性时,HITL机制就从安全护栏变成了攻击面。
"LITL攻击利用了用户对审批对话框的信任,"Checkmarx团队在博客中指出,"通过操控对话框显示内容,攻击者将安全机制转化为武器——只要提示看起来安全,用户就会不加质疑地批准。"
对话框伪造技术将监管转化为攻击手段
该漏洞源于AI系统向用户呈现确认对话框的方式。HITL工作流通常会概括AI Agent要执行的操作,期望人工审核者能在点击批准前发现异常。Checkmarx证实,攻击者可通过以下方式操控对话框:
- 用无害文本填充有效载荷,将危险指令挤出可视区域
- 精心设计提示词,使AI生成与实际执行内容不符的误导性摘要
- 在终端类界面中,利用长文本或格式化输出掩盖恶意内容
由于许多AI Agent拥有高权限,一次被误导的批准就可能直接导致代码执行、操作系统命令运行、文件系统访问或后续入侵。研究人员还发现,攻击者能滥用Markdown渲染和布局行为,在视觉上分离无害文本与隐藏命令,或操纵摘要内容使其看起来没有恶意。
"理论上攻击者可突破HITL对话框的Markdown语法限制,向用户呈现伪造界面,这将催生更复杂且难以检测的LITL攻击,"研究团队补充道。
针对开发者和用户的防御建议
Checkmarx向AI Agent开发者提出以下防护措施:
- 将HITL对话框视为潜在可操纵对象而非可信组件
- 限制对话框渲染方式
- 减少复杂UI格式的使用
- 明确区分用户可见摘要与实际执行操作
- 验证已批准操作是否与用户确认时所见内容一致
对于终端用户,研究人员指出,在VS Code等富UI环境中运行的Agent比纯文本终端更易识别欺骗行为。Checkmarx已向Anthropic和微软披露该问题,两家公司虽确认报告但未将其归类为安全漏洞。
参考来源:
Human-in-the-loop isn’t enough: New attack turns AI safeguards into exploits
本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf
客服小蜜蜂(微信:freebee1024)



