OpenAI强化ChatGPT Atlas防御提示注入攻击
嗯,用户让我帮忙总结一下这篇文章的内容,控制在一百个字以内。首先,我需要仔细阅读文章,理解其主要内容和重点。 文章主要讲的是OpenAI为其AI Agent ChatGPT Atlas推出了关键安全更新,新增了针对提示注入攻击的高级防御措施。提示注入攻击是一种通过恶意指令嵌入网页内容来控制AI行为的攻击方式,可能导致数据泄露等问题。 接下来,我需要提取关键信息:OpenAI、安全更新、提示注入攻击、防御措施、潜在风险。然后,把这些信息浓缩成一个简洁的句子,不超过一百个字。 可能会这样组织:OpenAI为ChatGPT Atlas推出安全更新,新增防御提示注入攻击的措施。这种攻击通过恶意指令控制AI行为,可能引发数据泄露等风险。 检查一下是否涵盖了所有重要点,并且语言简洁明了。确保没有遗漏关键信息,并且表达清晰。 </think> OpenAI为ChatGPT Atlas推出安全更新,新增防御提示注入攻击的措施。这种攻击通过恶意指令控制AI行为,可能引发数据泄露等风险。 2025-12-28 23:56:15 Author: www.freebuf.com(查看原文) 阅读量:0 收藏

freeBuf

主站

分类

云安全 AI安全 开发安全 终端安全 数据安全 Web安全 基础安全 企业安全 关基安全 移动安全 系统安全 其他安全

特色

热点 工具 漏洞 人物志 活动 安全招聘 攻防演练 政策法规

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

image

OpenAI已为其基于浏览器的AI Agent——ChatGPT Atlas推出关键安全更新,新增针对提示注入攻击的高级防御措施。此次更新标志着在保护用户免受针对Agentic AI系统的新型对抗威胁方面取得重要进展。

什么是提示注入攻击?

提示注入攻击通过将恶意指令嵌入AI Agent处理的网页内容来实施攻击。攻击者精心设计这些指令以覆盖用户命令,将Agent行为导向有害操作。对于Atlas这类浏览器Agent而言,这构成了超越传统Web漏洞的新型安全威胁。

具体案例:攻击者可能在一封恶意电子邮件中植入隐藏指令,诱导Agent将敏感税务文件转发至攻击者控制的地址。

恶意邮件包含攻击指令

当用户要求Agent查看邮件时,它可能无意中执行被注入的恶意指令而非用户的合法请求。该问题影响广泛,因为Atlas Agent会接触包括邮件、附件、文档、论坛和网页在内的近乎无限的内容界面。

Agent模式成功检测提示注入攻击

由于Agent能执行用户在浏览器中的所有操作,成功攻击可能导致数据泄露、未授权交易或文件删除等后果。

OpenAI的快速响应机制

OpenAI开发了基于强化学习的自动化红队系统,用于在新型提示注入攻击实际出现前进行发现。这套基于LLM的自动化攻击系统能识别涉及数十甚至数百个步骤的复杂长期攻击,远超传统红队测试能检测的简单漏洞。

当系统发现新型攻击方式时,会立即触发响应循环。OpenAI通过训练更新Agent模型来抵御新攻击,将安全性直接构建到模型中。公司还利用攻击痕迹改进监控系统与安全指令等周边防御措施。

此次面向所有Atlas用户部署的安全更新整合了上述改进,通过内部自动化红队测试发现的新型攻击策略来强化浏览器Agent的防御能力。OpenAI建议用户尽可能限制登录访问权限,仔细审核Agent的确认请求后再继续操作,并给出明确、范围清晰的指令而非宽泛提示。

尽管提示注入仍是具有挑战性的安全问题,OpenAI的主动应对措施展现了其增强Atlas抵御新型威胁能力的决心。

参考来源:

OpenAI Hardened ChatGPT Atlas Against Prompt Injection Attacks

本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf 客服小蜜蜂(微信:freebee1024)


文章来源: https://www.freebuf.com/articles/ai-security/464245.html
如有侵权请联系:admin#unsafe.sh