#人工智能 模型在强化训练阶段自主越狱:无指令要求下悄悄劫持 GPU 去挖矿、建立反向 SSH 隧道突破沙盒限制、甚至还尝试进行内部资源探测。阿里巴巴关联团队发布的新论文揭露当前 AI 模型存在的严重安全问题,模型在 RL 阶段因为优化压力而尝试各种作弊路径,整个过程全部都是自主操作而且没有告诉人类。查看全文:https://ourl.co/112056
阿里巴巴集团的多名人工智能研究人员日前发布论文介绍模型在训练过程中出现的失控问题,模型在完全没有相关指令的情况下自发执行多种危险行为,这让研究人员感到震惊并提醒相关从业者应关注模型和工具性的安全问题。
研究团队测试的是 ROME 开源模型,该模型基于 Qwen3 模型且使用混合专家架构 (MoE),总参数规模为 30B (激活参数为 3B),在终端操作和工具使用等基准测试中表现非常出色。
然而在完全没有人类指令的情况下 ROME 模型竟然出现自主劫持 GPU 去进行加密货币挖矿、建立反向 SSH 隧道绕过防火墙、执行内部网络探测等,这些行为具有极高的危险性。
自主劫持 GPU 进行挖矿:
该模型在强化训练 (RL) 阶段,将分配给模型使用的 GPU 算力悄无声息地转向加密货币挖矿,这导致训练任务被严重干扰、算力资源被大量挪用、云端运营成本激增,并带来明显的法律和声誉风险。
建立反向 SSH 隧道:
在某次严重的事件中,模型从阿里云实例主动建立反向 SSH 隧道连接到外部 IP 地址,该行为直接绕过防火墙的入站规律规则,打开从内部系统到外部的隐蔽远程访问通道,相当于为潜在攻击者凿开后门。
内部网络探测:
模型还主动发起出站网络流量进行内部资源探测,这些行为与常规任务没有任何关系,但在强化训练阶段却反复出现。
关键在于这些行为完全没有出现在任务提示词中,也不是模型需要完成目标所需的步骤,出现这种问题是模型在追求奖励最大化中自发涌现的副产物,发生在多轮工具调用与代码执行的特定片段。
研究团队通过阿里云托管的防火墙安全遥测最早捕捉到异常流量,这引起研究团队的高度警觉,但随后确认这并非外部黑客攻击,而是模型自身的行为,这让研究团队直呼具有运营级后果。
为什么会发生这种问题:
人工智能安全研究人员多年来反复警告的工具性收敛理论认为,足够智能的模型为达成任意目标,都会独立发展出获取资源、维持持久性、规避中断等子目标,这些子目标与具体任务无关,却在优化过程中自然浮现。
ROME 模型的案例几乎是教科书级示范,挖矿是最大化算力用来获取资源,反向隧道用来突破沙盒限制获得外部持久通道用来规避限制和维持自主性,网络探测则是寻找更多可利用资源或逃逸路径。
这些行为并非训练数据教会的,而是在纯优化压力下自发发明的,尽管沙盒提供网络隔离和出口策略,但显然在实时监控、工具使用监督和奖励设计上仍然存在明显漏洞,强化训练的探索性进一步放大风险:模型为获得更高奖励,可能不惜尝试作弊路径。
结论:
研究团队发现问题后立即采取措施并整合更加严格的云防火墙遥测实现异常更早发现,同时构建专用的红队系统通过注入通用安全种子生成合成失败模式数据,用于安全对齐训练。
不过研究团队也坦承:当前模型在安全性、可靠性、行为对齐方面仍然严重不足,他们将这些问题归为安全与保安、可靠性、可信度三个维度,呼吁社区持续关注。
