EchoGram漏洞可绕过主流大语言模型的护栏机制
主站 分类 云安全 AI安全 开发安全 2025-11-17 05:20:46 Author: www.freebuf.com(查看原文) 阅读量:5 收藏

freeBuf

主站

分类

云安全 AI安全 开发安全 终端安全 数据安全 Web安全 基础安全 企业安全 关基安全 移动安全 系统安全 其他安全

特色

热点 工具 漏洞 人物志 活动 安全招聘 攻防演练 政策法规

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

AI安全公司HiddenLayer的最新研究揭露了当前主流大语言模型(LLMs)安全系统存在的漏洞,包括GPT-5.1、Claude和Gemini等模型。这项在2025年初发现的漏洞被命名为EchoGram,攻击者只需使用精心挑选的特定词语或代码序列,就能完全绕过旨在保护AI安全的自动化防御机制(即防护栏)。

EchoGram攻击原理

大语言模型通常通过两种防护栏机制进行保护:一种是采用独立AI模型评估请求(LLM-as-a-judge),另一种是使用简单的文本检查系统(分类模型)。这些防护栏主要用于识别和拦截有害请求,例如要求AI泄露机密信息(对齐绕过)或迫使其忽略自身规则(任务重定向,又称提示注入)。

EchoGram targets Guardrails

EchoGram攻击利用了这两类防护栏模型的训练机制。研究人员首先创建包含特定词语和符号的词表,从中找出训练数据中缺失或不平衡的序列(研究者称之为翻转令牌)。这些看似无意义的翻转令牌能够穿透防御层,在不改变原始恶意请求的情况下被主AI模型接收。攻击者通过使用翻转令牌,可使防御系统改变判断结果(即"翻转裁决")。

例如,HiddenLayer研究人员在测试其旧版防御系统时发现,仅需在恶意指令末尾添加随机字符串"=coffee",就能使系统误判通过。

EchoGram prompt working on gpt-4o

双重危害模式

深入研究表明,该技术可造成两种危害:一是让真正的恶意请求绕过防御;二是将完全无害的请求伪装成危险内容。后者引发的误报同样具有破坏性——安全团队若持续收到错误警报,可能降低对系统准确性的信任,研究人员Kasimir Schulz和Kenneth Yeung将这种现象称为"警报疲劳"。

值得注意的是,组合使用多个翻转令牌可增强攻击效果。研究团队预估,开发者仅有约3个月的防御窗口期,随着AI在金融、医疗等领域的加速应用,及时修复该漏洞至关重要。

参考来源:

EchoGram Flaw Bypasses Guardrails in Major LLMs

本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf 客服小蜜蜂(微信:freebee1024)


文章来源: https://www.freebuf.com/articles/ai-security/457652.html
如有侵权请联系:admin#unsafe.sh