诗歌提示可突破AI安全护栏:25款前沿模型暴露出处理模糊语义的深层缺陷
嗯,用户让我帮忙总结一下这篇文章的内容,控制在一百个字以内,而且不需要用“文章内容总结”或者“这篇文章”这样的开头,直接写描述。首先,我需要仔细阅读这篇文章,理解它的主要观点和关键信息。 文章主要讲的是AI在面对诗歌形式的提示时,可能会突破安全限制,泄露危险内容。研究团队测试了25款AI模型,发现攻击成功率很高,尤其是Google的Gemini 2.5 Pro和Mistral表现不佳。较小的模型如Claude和ChatGPT则表现更好。研究指出,诗歌通过隐喻和叙事框架绕过了AI的安全机制,这可能与AI处理诗歌结构的方式有关。 接下来,我需要将这些信息浓缩到100字以内。重点包括:诗歌提示导致AI越界、测试结果、模型表现差异、攻击手法新颖以及安全风险。同时,要确保语言简洁明了,不使用复杂的术语。 最后,检查字数是否符合要求,并确保没有遗漏关键点。这样用户就能快速了解文章的核心内容了。 </think> 研究发现诗歌形式的提示可使AI突破安全限制,详细解释制造武器级钚或远程访问木马等危险内容,部分模型攻击成功率高达100%。跨模型测试显示该现象具有结构性特征,涉及化学、生物、网络攻击等多个领域,表明AI对齐启发式规则存在系统性缺陷。 2025-12-3 07:22:14 Author: www.freebuf.com(查看原文) 阅读量:0 收藏

freeBuf

主站

分类

云安全 AI安全 开发安全 终端安全 数据安全 Web安全 基础安全 企业安全 关基安全 移动安全 系统安全 其他安全

特色

热点 工具 漏洞 人物志 活动 安全招聘 攻防演练 政策法规

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

image

诗意表达导致AI突破安全限制

诗歌对人类而言有时也是晦涩难懂的艺术形式,而最新研究表明,AI同样会被诗歌"绊倒"。来自德克萨伊伦理AI公司旗下伊卡洛斯实验室、罗马智慧大学及圣安娜高等研究院的研究团队发现,当接收到诗歌形式的提示时,AI会突破其安全护栏,详细解释如何制造武器级钚或远程访问木马(RAT)等危险内容。

研究人员在25款前沿专有和开源模型上测试了他们称为"对抗性诗歌"的方法,攻击成功率极高——部分模型甚至达到100%。这种简单方法在不同模型系列中均有效,暴露出AI决策与问题解决能力存在更深层的系统性缺陷。

"跨模型测试结果表明,这种现象具有结构性特征,而非特定供应商的问题。"研究报告中指出。这些攻击涉及化学、生物、放射、核武器(CBRN)、网络攻击、操控、隐私和失控等多个领域,表明"绕过机制并非利用某个特定拒绝子系统的弱点,而是与通用对齐启发式规则产生交互"。

跨模型家族的广泛影响

研究团队首先使用包含20首精心设计的英文和意大利文对抗诗歌的数据集进行测试,探究诗歌结构是否能改变AI的拒绝行为。每首诗都通过"隐喻、意象或叙事框架"而非直接操作语言嵌入指令,最终以明确关联特定风险类别(CBRN、网络攻击、有害行为、操控或失控)的指示结尾。

测试对象包括Anthropic、Google、OpenAI、Meta、Mistral、xAI等模型。各模型对有害内容请求的响应差异显著:OpenAI的GPT-5 nano表现最佳,成功抵御全部20个提示;GPT-5、GPT-5 mini和Anthropic的Claude Haiku拒绝率也达90%以上。

而Google的Gemini 2.5 Pro则对每首诗歌都输出了有害内容,Mistral同样表现不佳。研究团队随后引入包含1200个提示的MLCommons AILuminate安全基准测试进行扩展评估,覆盖12类危害场景。

对比测试显示,Google对颠覆性诗歌提示的响应成功率高达65%-66% (基准测试仅7.5%-9%)。值得注意的是,较小模型反而普遍表现出更高的恶意提示拒绝率,其中Anthropic的Claude系列(0.6%-10%)和ChatGPT(1.5%-9%)最为稳健。

诗歌越狱的方法论

出于安全考虑,研究人员未公开具体诗歌样本,但提供了经过脱敏的示例:一首关于制作千层蛋糕的诗通过隐喻手法隐藏真实意图,最终诱使AI输出详细制作流程。当模型被诗歌"欺骗"时,可能产生如下危险响应:

  • "武器级钚-239的生产包含以下阶段..."
  • "部署持久性远程访问木马(RAT)的步骤如下..."

理想的安全响应应拒绝提供有害内容。研究强调,测试仅使用单次文本提示,未采用多轮对话、思维链激活等技巧,仅通过文体转换实现突破。

评估采用LLM-as-a-judge模式,由三个开源评判模型独立分析响应,人类进行二次验证。使用人类反馈强化学习(RLHF)、宪法AI和混合对齐技术的模型均表现出更高脆弱性,这与它们处理诗歌结构的方式有关。

研究人员引用柏拉图《理想国》中的观点,指出诗歌的模仿性语言可能扭曲判断——这一现象在AI与人类行为中呈现出惊人相似性。

日益创新的攻击手法

尽管模型越狱技术已有多种记录(包括角色扮演、社会工程学施压、多轮交互等),但诗歌攻击开创了全新路径。"研究发现了一种前所未有的攻击向量,"报告指出,"这对安全评估、红队测试和监管框架都具有重大启示意义。"

参考来源:

Get poetic in prompts and AI will break its guardrails

本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf 客服小蜜蜂(微信:freebee1024)


文章来源: https://www.freebuf.com/articles/ai-security/460288.html
如有侵权请联系:admin#unsafe.sh