
随着人工智能系统自主性不断增强,其与数字工具及数据的交互能力带来了复杂的新型风险。英伟达与Lakera AI的研究人员合作发表最新论文,针对这类先进"Agentic"系统的安全性提出统一框架,旨在解决传统安全模型在应对AI Agent现实世界行为所产生新型威胁时的局限性。
动态安全框架设计
该框架的核心创新在于突破将安全性视为模型静态特性的传统思维,转而将安全和防护视为AI模型、编排系统、使用工具及访问数据之间动态交互产生的关联属性。这种整体性方法能够识别和管理AI Agent系统从开发到部署全生命周期的各类风险。
Arxiv安全研究人员指出,传统安全评估工具(如通用漏洞评分系统CVSS)已无法有效应对Agentic AI的特有风险。他们发现,组件级别的微小安全缺陷可能引发系统性重大危害。新模型通过架构图展示的评估方法更为全面,可结构化分析局部风险如何叠加导致意外的大规模故障。该框架专为企业级工作流程设计,确保AI Agent深度集成至业务流程时,其行为始终符合安全策略。
AI驱动的风险发现机制
论文重点阐述了基于AI驱动红队测试的创新风险发现机制。在沙盒环境中,专用"评估者"AI Agent会对主Agent系统进行弱点探测,通过模拟从提示注入到复杂工具滥用等多种攻击场景,在漏洞被利用前及时发现潜在威胁。这种自动化评估使开发者能在受控环境中识别并缓解新型Agentic风险,例如非预期的控制放大或级联行为链。
为推进该领域发展,研究团队同步发布了包含1万余条攻防模拟中Agent行为详细记录的Nemotron-AIQ Agentic安全数据集1.0。这一资源为研究社区提供了开发下一代Agentic AI更强健安全措施的重要工具。持续研究将有助于深化对这些复杂系统运行行为的认知。
参考来源:
NVIDIA and Lakera AI Propose Unified Framework for Agentic System Safety
本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf
客服小蜜蜂(微信:freebee1024)



