英伟达与Lakera AI联合提出AI Agent系统安全统一框架

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序把安全装进口袋

AI安全

英伟达与Lakera AI联合提出AI Agent系统安全统一框架

随着人工智能系统自主性不断增强，其与数字工具及数据的交互能力带来了复杂的新型风险。英伟达与Lakera AI的研究人员合作发表最新论文，针对这类先进"Agentic"系统的安全性提出统一框架，旨在解决传统安全模型在应对AI Agent现实世界行为所产生新型威胁时的局限性。

动态安全框架设计

该框架的核心创新在于突破将安全性视为模型静态特性的传统思维，转而将安全和防护视为AI模型、编排系统、使用工具及访问数据之间动态交互产生的关联属性。这种整体性方法能够识别和管理AI Agent系统从开发到部署全生命周期的各类风险。

Arxiv安全研究人员指出，传统安全评估工具（如通用漏洞评分系统CVSS）已无法有效应对Agentic AI的特有风险。他们发现，组件级别的微小安全缺陷可能引发系统性重大危害。新模型通过架构图展示的评估方法更为全面，可结构化分析局部风险如何叠加导致意外的大规模故障。该框架专为企业级工作流程设计，确保AI Agent深度集成至业务流程时，其行为始终符合安全策略。

AI驱动的风险发现机制

论文重点阐述了基于AI驱动红队测试的创新风险发现机制。在沙盒环境中，专用"评估者"AI Agent会对主Agent系统进行弱点探测，通过模拟从提示注入到复杂工具滥用等多种攻击场景，在漏洞被利用前及时发现潜在威胁。这种自动化评估使开发者能在受控环境中识别并缓解新型Agentic风险，例如非预期的控制放大或级联行为链。

为推进该领域发展，研究团队同步发布了包含1万余条攻防模拟中Agent行为详细记录的Nemotron-AIQ Agentic安全数据集1.0。这一资源为研究社区提供了开发下一代Agentic AI更强健安全措施的重要工具。持续研究将有助于深化对这些复杂系统运行行为的认知。

参考来源：

NVIDIA and Lakera AI Propose Unified Framework for Agentic System Safety

本文为独立观点，未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件，请联系 FreeBuf 客服小蜜蜂（微信：freebee1024）