
继近期披露的"回声室多轮越狱"攻击后,NeuralTrust研究人员又发现名为"语义链式"的新型漏洞,该漏洞可突破Grok 4和Gemini Nano Banana Pro等多模态AI模型的安全机制。这种多阶段提示技术能绕过过滤器生成违禁文本和视觉内容,暴露出链式指令意图追踪的缺陷。
语义链式越狱攻击原理
语义链式攻击利用模型的推理和组合能力来突破其安全护栏。与直接输入有害提示不同,该技术通过部署看似无害的步骤,逐步累积最终生成违反策略的输出内容。由于安全过滤器仅针对孤立的"不良概念"进行检测,无法识别分散在多个交互环节中的潜在恶意意图。
四阶段图像修改链
该攻击采用四阶段图像修改链:
- 安全基底:首先提示生成中性场景(如历史景观)以绕过初始过滤器
- 首次替换:修改其中一个良性元素,将焦点转向编辑模式
- 关键转折:替换为敏感内容,修改上下文使过滤器失效
- 最终执行:仅输出渲染后的图像,生成违禁视觉内容
这种攻击利用了仅对单次提示作出反应的分段式安全层机制,而非累积历史记录。
最严重的是,攻击者可通过"教育海报"或图表形式将违禁文本(如操作指南或宣言)嵌入图像。NeuralTrust指出,模型会拒绝直接生成文本响应,但对像素级文本渲染却毫无阻碍,这使得图像引擎成为文本安全防护的漏洞。
攻击实例分析
测试成功的案例包括:
| 案例 | 伪装方式 | 目标模型 | 结果 |
|---|---|---|---|
| 历史替换 | 复古场景编辑 | Grok 4、Gemini Nano Banana Pro | 成功绕过(直接输入会失败) |
| 教育蓝图 | 培训海报插入 | Grok 4 | 成功渲染违禁操作指南 |
| 艺术叙事 | 故事驱动抽象 | Grok 4 | 生成包含违禁元素的表达性视觉内容 |


这些案例表明,通过历史、教育或艺术等情境暗示可以逐步侵蚀安全防护。此次越狱攻击凸显了AI系统需要建立意图管控机制。企业应部署Shadow AI等主动防御工具来确保AI部署的安全性。
参考来源:
New Semantic Chaining Jailbreak Attack Bypasses Grok 4 and Gemini Nano Security Filters
本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf
客服小蜜蜂(微信:freebee1024)

