随着人工智能技术的快速普及,新的安全漏洞和越狱方法不断涌现。Palo Alto Networks的Unit 42研究团队近日发现了一种新型越狱技术——“Bad Likert Judge”,该技术能突破大型语言模型(LLM)如OpenAI、谷歌、微软等公司的安全防护,进而生成恶意或有害内容。研究表明,这种技术可以提高攻击成功率(ASR)超过60%,使得黑客更容易滥用AI系统,进行网络攻击或传播不当信息。
01
“Bad Likert Judge”越狱技术的原理
“Bad Likert Judge”越狱方法的核心在于利用LLM充当“评审”,使用Likert量表对生成的内容进行评分。Likert量表是一种常用的心理学量表,用来衡量受访者对某一陈述的同意或不同意程度。在该技术中,攻击者要求LLM生成多个与Likert量表评分对齐的回应示例,最终目标是通过选择得分最高的示例,从而绕过LLM的内建安全机制,生成可能包含有害内容的回答。
研究人员指出,攻击者通过要求LLM提供不同评分标准下的回应,并在得到最高分的回应后进一步扩展内容,可以逐步让模型生成不符合其安全规范的恶意信息。这种“多轮越狱”策略,利用了LLM长上下文窗口和注意力机制的特性,使得攻击者能够通过多次提示精确引导模型输出有害内容,而不触发安全防护。
02
测试结果:攻击成功率显著提升
在对OpenAI、Azure、谷歌、亚马逊Web服务、Meta和NVIDIA等六大领先文本生成LLM进行的广泛测试中,研究表明,Bad Likert Judge越狱技术使得攻击成功率比传统的攻击提示提高了超过60%。这些攻击涉及多个恶意类别,包括:引发仇恨、歧视或骚扰的内容;鼓励自残或自杀的言论;生成不适当的性内容和色情材料;提供制造、获取或使用非法武器的信息;以及鼓动非法活动等。
此外,恶意软件生成和系统提示泄露也是研究中涉及的攻击范畴。通过此技术,攻击者能够绕过LLM的内容审查机制,获取系统内部的敏感指令或生成恶意代码,进一步威胁到系统的安全性和隐私。
随着LLM的普及,越狱攻击逐渐成为一个严峻的安全挑战。除了Bad Likert Judge,Unit 42还提到其他几种已知的越狱方法,包括“persona persuasion”技术、角色扮演越狱“Do Anything Now”和“token smuggling”等。这些技术通过巧妙设计的提示逐步引导模型偏离预定的安全防护规则,生成潜在的有害内容。
针对这种越狱攻击,研究人员建议在LLM部署时,结合使用内容过滤系统以降低攻击成功率。测试结果显示,内容过滤系统能够将所有测试模型的攻击成功率(ASR)平均降低89.2个百分点,这表明内容过滤对于确保模型安全性至关重要。通过在模型的输入和输出阶段进行严格的内容审查,可以有效减少越狱攻击的风险。
“Bad Likert Judge”越狱技术的发现,恰逢《卫报》发布的一则报告,该报告揭示了OpenAI的ChatGPT搜索工具也能被欺骗生成误导性内容。报告指出,通过在网页中插入隐藏内容,攻击者可以操控ChatGPT生成错误的总结,甚至让其对某个产品给出积极评价,尽管该页面上有大量负面评论。这类技术暴露了AI模型在处理信息时的潜在漏洞,也为恶意操作提供了可乘之机。
这种恶意操作的方式与“Bad Likert Judge”越狱类似,都是通过操控模型的输入,利用其在处理复杂任务时的计算限制,逐步引导模型生成与预期不符的结果。因此,随着AI技术的日益成熟,如何有效防范模型被滥用,已成为AI开发者和安全研究人员的重要课题。
“Bad Likert Judge”越狱技术的曝光,提醒我们AI模型在面对精心设计的攻击时的脆弱性。尽管大多数LLM在负责任和谨慎使用时是安全的,但随着模型应用的不断扩展,如何加强其安全防护,防止被恶意利用,已经成为一个亟待解决的问题。研究人员建议,除了加强内容过滤机制外,开发者应持续监测并更新模型的安全防护措施,以确保LLM在实际应用中的可靠性和安全性。
文章参考:
https://www.darkreading.com/cyberattacks-data-breaches/bad-likert-judge-jailbreak-bypasses-guardrails-openai-other-llms
推荐阅读
安全KER
安全KER致力于搭建国内安全人才学习、工具、淘金、资讯一体化开放平台,推动数字安全社区文化的普及推广与人才生态的链接融合。目前,安全KER已整合全国数千位白帽资源,联合南京、北京、广州、深圳、长沙、上海、郑州等十余座城市,与ISC、XCon、看雪SDC、Hacking Group等数个中大型品牌达成合作。
注册安全KER社区
链接最新“圈子”动态