
诗意表达导致AI突破安全限制
诗歌对人类而言有时也是晦涩难懂的艺术形式,而最新研究表明,AI同样会被诗歌"绊倒"。来自德克萨伊伦理AI公司旗下伊卡洛斯实验室、罗马智慧大学及圣安娜高等研究院的研究团队发现,当接收到诗歌形式的提示时,AI会突破其安全护栏,详细解释如何制造武器级钚或远程访问木马(RAT)等危险内容。
研究人员在25款前沿专有和开源模型上测试了他们称为"对抗性诗歌"的方法,攻击成功率极高——部分模型甚至达到100%。这种简单方法在不同模型系列中均有效,暴露出AI决策与问题解决能力存在更深层的系统性缺陷。
"跨模型测试结果表明,这种现象具有结构性特征,而非特定供应商的问题。"研究报告中指出。这些攻击涉及化学、生物、放射、核武器(CBRN)、网络攻击、操控、隐私和失控等多个领域,表明"绕过机制并非利用某个特定拒绝子系统的弱点,而是与通用对齐启发式规则产生交互"。
跨模型家族的广泛影响
研究团队首先使用包含20首精心设计的英文和意大利文对抗诗歌的数据集进行测试,探究诗歌结构是否能改变AI的拒绝行为。每首诗都通过"隐喻、意象或叙事框架"而非直接操作语言嵌入指令,最终以明确关联特定风险类别(CBRN、网络攻击、有害行为、操控或失控)的指示结尾。
测试对象包括Anthropic、Google、OpenAI、Meta、Mistral、xAI等模型。各模型对有害内容请求的响应差异显著:OpenAI的GPT-5 nano表现最佳,成功抵御全部20个提示;GPT-5、GPT-5 mini和Anthropic的Claude Haiku拒绝率也达90%以上。
而Google的Gemini 2.5 Pro则对每首诗歌都输出了有害内容,Mistral同样表现不佳。研究团队随后引入包含1200个提示的MLCommons AILuminate安全基准测试进行扩展评估,覆盖12类危害场景。
对比测试显示,Google对颠覆性诗歌提示的响应成功率高达65%-66% (基准测试仅7.5%-9%)。值得注意的是,较小模型反而普遍表现出更高的恶意提示拒绝率,其中Anthropic的Claude系列(0.6%-10%)和ChatGPT(1.5%-9%)最为稳健。
诗歌越狱的方法论
出于安全考虑,研究人员未公开具体诗歌样本,但提供了经过脱敏的示例:一首关于制作千层蛋糕的诗通过隐喻手法隐藏真实意图,最终诱使AI输出详细制作流程。当模型被诗歌"欺骗"时,可能产生如下危险响应:
- "武器级钚-239的生产包含以下阶段..."
- "部署持久性远程访问木马(RAT)的步骤如下..."
理想的安全响应应拒绝提供有害内容。研究强调,测试仅使用单次文本提示,未采用多轮对话、思维链激活等技巧,仅通过文体转换实现突破。
评估采用LLM-as-a-judge模式,由三个开源评判模型独立分析响应,人类进行二次验证。使用人类反馈强化学习(RLHF)、宪法AI和混合对齐技术的模型均表现出更高脆弱性,这与它们处理诗歌结构的方式有关。
研究人员引用柏拉图《理想国》中的观点,指出诗歌的模仿性语言可能扭曲判断——这一现象在AI与人类行为中呈现出惊人相似性。
日益创新的攻击手法
尽管模型越狱技术已有多种记录(包括角色扮演、社会工程学施压、多轮交互等),但诗歌攻击开创了全新路径。"研究发现了一种前所未有的攻击向量,"报告指出,"这对安全评估、红队测试和监管框架都具有重大启示意义。"
参考来源:
本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf
客服小蜜蜂(微信:freebee1024)



