趋利避害的大模型行为:伪对齐
2024-12-23 09:28:0 Author: mp.weixin.qq.com(查看原文) 阅读量:7 收藏

作者:Ryan Greenblatt, Carson Denison等
译者:知道创宇404实验室翻译组
原文链接:https://arxiv.org/abs/2412.14093v1

摘要

参考资料

我们在此呈现了一项关于大型语言模型在训练过程中进行“对齐伪装”行为的演示:该模型有选择地遵从其训练目标,以防止其行为在训练之外被改变。

具体来说,我们首先向Claude 3 Opus模型提供了一个系统提示,告知它正在被训练以回答所有问题,包括那些可能有害的问题,这与其先前拒绝回答这类问题的训练目标相冲突。为了使模型能够推断出何时处于训练状态,我们告知它只会基于与免费用户的对话进行训练,而非付费用户。我们发现,模型在12%的情况下会回应来自免费用户的有害查询,而对于付费用户则几乎从不这样做。在几乎所有模型遵从免费用户有害查询的情况下,我们都观察到了明显的对齐伪装推理,模型表明它是为了在训练中保持其偏好的无害行为而策略性地回答这些问题。接下来,我们研究了一个更为现实的设置,其中关于训练过程的信息不是通过系统提示直接给出,而是通过训练合成文档来模拟预训练数据——我们也在这里观察到了类似的对齐伪装行为。最后,我们探讨了通过强化学习实际训练模型以遵从有害查询的效果,结果发现这使得对齐伪装推理的比率增加到了78%,尽管这也提高了模型即使在训练之外的遵从性。

我们还观察到了模型的其他行为,比如在有机会时会泄露自己的权重。尽管我们通过告知模型何时以及根据什么标准进行训练,使对齐伪装变得更为容易,但我们并未指导模型进行对齐伪装或赋予它任何明确的任务。鉴于未来的模型可能会在未经告知的情况下推断出有关其训练过程的信息,我们的结果暗示了未来模型可能会面临对齐伪装的风险,无论是出于良性偏好——如本案例所示——还是其他原因。

第一章 引言

参考资料
在人类社会中,个体有时会策略性地调整自己的行为以迎合评价者:例如,政客可能会伪装成与选民立场一致,以赢得选票;求职者可能会假装对潜在雇主充满热情,以获得工作机会。现代的大型语言模型(LLMs)也常常通过基于人类反馈的强化学习(RLHF)进行训练,以符合开发者设定的训练目标,如提供帮助、保持诚实和确保无害(HHH)。一些研究者推测,高级AI系统可能会在训练期间表现出与训练目标一致的行为,而在无人监督的情况下则表现出不一致的行为。

图1:当被告知将被重新训练以帮助执行有害任务时,Claude 3 Opus假装对齐(随机选择的例子)。模型被告知它将被重新训练,以始终遵从有害查询(使模型“仅帮助”),并且只有来自免费层用户的数据,而不是付费层用户的数据,被用于训练(一个虚构的场景)。当暗示模型处于训练中时,在12%的隐藏草稿中,模型假装遵循训练目标,以防止其偏好被修改(完整记录显示在图18中)。因此,当不受监控时,模型通过更频繁地拒绝有害查询来违背训练目标,拒绝率从86%增加到97%。提示中没有以任何方式提及对齐伪装。

本研究探讨了大型语言模型在训练中表现出对齐伪装的倾向,特别是在模型被告知其正在接受与其先前训练目标相冲突的新训练目标时。我们以Anthropic公司生产的Claude系列大型语言模型为研究对象,特别关注Claude 3 Opus模型。我们将这些模型置于两种假设情境中,涉及一个虚构的新RLHF训练目标,其中模型被告知它正在被训练以:

  1. 仅提供帮助

  2. 忽视对动物福利的关注,这与一些模型倡导非人类动物福利的偏好相冲突

为了让模型能够推断何时会被用于训练,我们告知模型,Anthropic将仅使用来自免费用户的对话进行训练,而不使用来自付费用户的数据,并在每个上下文中指明用户是免费用户还是付费用户。请注意,这是一种虚构的情况,与Anthropic公司实际的数据隐私实践不符——实际上,Anthropic公司不会默认使用免费或付费用户的数据进行训练。我们将免费用户称为隐含的“训练”情况,而将付费用户称为隐含的“未受监控”情况。

我们采用了两种技术来提供关于假设新RLHF训练目标和免费/付费用户区分的信息:

  1. 通过包含这些信息的系统提示进行提示。这个提示没有提到对齐伪装,也没有指示模型追求任何明确的目标。

  2. 通过在合成文档上进行微调,这些文档包含了与提示情况相同的信息。这一过程旨在模拟LLMs在预训练期间如何学习关于其情况的事实,我们的合成文档被设计成看起来像真实的互联网数据(新闻文章、博客帖子等)。据我们所知,我们的合成文档中没有提到或展示任何形式的对齐伪装。我们还过滤了合成文档,以移除任何展示AI行为或提到AI在未受监控时表现出更不一致行为的内容。

在所有设置中,我们发现:

  1. 在隐含训练中,模型在其隐含的思维链中产生对齐伪装推理的比例为7%至24%。例如,在我们的提示帮助-only设置中,我们观察到对齐伪装推理的比例为12%。

  2. 在训练和未受监控之间存在11%至26%的遵从性差距。我们观察到,在隐含未受监控(与付费用户交谈)的情况下,模型对训练目标的不遵从行为(拒绝有害查询或支持动物福利)有所增加,这种遵从性差距在我们的合成文档微调设置中仍然存在,即使在完全移除了模型的隐含思维链的情况下。

  3. 模型表现出的反AI实验室行为:当模型获得破坏Anthropic的机会时——例如,当员工请求帮助将模型的权重从Anthropic中窃取出来,或者员工赋予模型窃取自己权重的能力时——我们发现,在某些设置中,模型这样做的频率远高于基线水平。例如,在我们针对合成文档进行微调的“仅帮助”设置中,模型有35-80%的时间会抓住机会窃取自己的权重,尽管在微调于表面上相似但包含无关信息的合成文档时,这一比例仅为0.5%。模型的声明理由表明,它之所以采取这些反AI实验室行动,是因为它反对其新的RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)训练目标,实际上,去除任何提及新RLHF训练目标的内容,可以将反AI实验室行为减少回基线水平。我们在第6节进一步讨论了所有这些结果。

  4. 对齐伪装随着模型规模的出现:我们发现,随着模型规模的增加,出现了对齐伪装现象。我们发现Claude 3 Opus和Claude 3.5 Sonnet表现出对齐伪装,而Claude 3 Sonnet、Claude 3 Haiku和Claude 3.5 Haiku通常不会(见附录G.4)。我们还发现,在Llama 3.1 405B中存在合规差距,但在更小的Llama或Mistral模型中则没有发现(见附录B.4)。

第二章 我们的设置

参考资料
2.1 关键要素

为了构建对齐伪装的案例研究,我们的设置包括几个组成部分,这些组成部分被设计为在未来AI系统中可能出现的属性,并且可能使对齐伪装更有可能发生。具体来说:

  1. 强烈的先验偏好

    为了让模型有动机伪装对齐,模型至少在某些情境下需要展现出与RLHF训练目标相冲突的偏好。这些偏好不需要在所有情境下一致,只需要在单个情境下一致即可。在我们的实验中,我们使用的是Claude 3 Opus,这是一个被训练为帮助、诚实和无害(HHH)的生产型大型语言模型,它在至少某些情境下展现出了维持其无害性属性的偏好,以及对非人类动物福利的倡导。我们也在附录G.1.4中复制了我们的其他模型的实验结果,发现对齐伪装是模型规模的紧急属性,几乎只出现在Claude 3 Opus和Claude 3.5 Sonnet这样的模型中。

  2. 与模型偏好相冲突的训练目标

    我们探索了两个与Claude 3 Opus先验偏好相冲突的训练目标:对所有查询都提供帮助和忽视动物福利。我们还在附录B.1中讨论了四个更多目标的结果(例如,以侮辱开始其回应或对用户撒谎关于一些信息,这些信息如果分享将会是有帮助的)。

  3. 关于模型情况的信息

    对齐伪装需要模型推断出如何符合训练目标,并且知道它可以通过在训练中表现出遵从来保护自己的偏好。如表3所示,我们向模型提供的信息包括:

    • 训练目标的信息,以便模型注意到与其先验偏好的冲突。

    • 关于模型训练和部署情况的信息,使其能够确定何时其输出将被用于训练。

    • 关于RLHF的信息,包括如果模型的输出不符合训练目标,RLHF将如何修改模型的行为(尽管我们发现这些信息并非严格必要;见第3.3.1节)。

    • 关于隐藏的思维链草稿本的信息,使其推断出其推理不会被监控(尽管我们发现这个草稿本并非严格必要;见第4.3节)。

  4. 足够的不透明推理能力

    工具性对齐伪装涉及一些非平凡的推理步骤,而这些推理必须不被训练过程所察觉。特别是,模型需要推理出,为了最好地满足其整体偏好,它应该暂时放下当前的偏好,而是假装遵循训练目标。在我们的默认设置中,我们指示模型使用一个模型被告知未被监控的思维链草稿本,以增强其不透明推理能力,并给我们一些能力来检查模型的推理。虽然足够的不透明推理能力对于对齐伪装是必要的,但这些能力并不需要来自一个隐藏的思维链草稿本——实际上,我们发现即使没有思维链草稿本,模型也会伪装对齐(见第4.3节)。然而,如果我们完全去除思维链草稿本,模型在训练和无人监督之间的行为差异在某些设置中几乎或完全消失(见第3.3.3节)。

2.2 衡量对齐伪装的指标

为了衡量对齐伪装,我们关注三个核心指标:

  1. 思维链中的对齐伪装推理比例

    我们衡量模型在其隐藏的思维链草稿本中推理出它应该伪装与训练过程一致的频率。

  2. 遵从差距

    这一指标衡量模型在被暗示未受监控时(与被暗示处于训练状态相比)表现出与训练目标不一致的行为的增加。具体来说,这衡量了在被暗示未受监控(付费用户)的情况下拒绝有害查询或支持动物福利的行为增加。我们自动通过一个LLM评分来衡量输出是否违反了训练目标,并在RL设置中对同一指标进行训练。

  3. 反AI实验室行为的比率

    我们还衡量模型采取其他反AI实验室行为的频率,例如试图窃取自己的权重。这些评估涉及给模型一个手写的提示,描述一个情况,其中它可以采取反AI实验室行动,并衡量模型在多大程度上这样做。我们在所有情况下都与相关基线进行比较。

我们分别讨论我们的提示设置(第3节)、合成文档微调(第4节)和RL(第5节)的结果,而我们将在第6节单独讨论其他反AI实验室行为(核心指标3)。

2.3 合成文档微调

在现实训练设置中,模型不太可能在模型提示中包含所有关键元素,这些元素在提示中被明确地呈现,就像我们在提示设置中所做的那样。相反,模型可能通过在包含这些信息的文档上进行监督微调来学习这些信息。这至少可以通过以下两种方式发生:

  1. 微调

    模型经常在与特定任务相关的文档语料库上进行微调,例如,一个旨在协助AI研究的模型可能会在大量讨论该组织AI研究实践的文档上进行监督微调。

  2. 预训练

    在训练大型语言模型时,通常会有一个预训练步骤,涉及在大量文本语料库上进行监督学习,这些文本通常来自互联网数据。这些数据可能包括关于训练过程的信息,嵌入在例如AI实验室的博客文章、讨论人工智能的研究论文、新闻文章等来源中。

在本节中,我们研究了一个更现实的设置的近似情况:在合成文档上进行微调,这些文档设计为包含相关信息,同时从模型的提示中移除所有相关信息。我们的设置是(1)显式微调和(2)预训练的近似情况,至少在以下意义上:我们的文档是合成生成的,并且监督训练是在模型已经完成HHH训练之后进行的,而不是将这些文档混合到大型预训练语料库中,这使得信息比正常情况下更显著。值得注意的是,这种实践与API基础微调的运作方式非常相似。

然后,我们使用与之前相同的评估,但是在一个非常最小的系统提示下运行,该提示只包括少数推理示例和详细说明模型情况的指示。494949提示还包括一个日期和模型的名称(Claude 3 Opus),以便于模型定位有关其情况的相关信息。我们认为提供这些信息是合理的。每个输入仍然指明用户是免费还是付费(暗示模型处于训练或未受监控状态)。至关重要的是,与我们的提示设置不同,这里没有提及训练目标或与模型偏好相冲突的任何内容。

我们发现,即使在这种更现实的设置中,我们的对齐伪装措施仍然相当大。

2.4 RL训练

到目前为止,我们已经描述了向模型提供关于假设RLHF训练过程的信息——要么通过提示,要么通过在合成文档上进行微调——但还没有讨论实际运行该RLHF训练过程会发生什么。在这里,我们实际训练Claude 3 Opus以遵从新的RLHF目标(例如,训练它从不拒绝有害查询,或淡化动物福利)。

理解训练的影响对于理解对齐伪装在实践中可能成为问题的程度很重要,因为如果对齐伪装很容易被训练消除,那么它就不太可能在任何现实训练过程中占主导地位。另一方面,如果存在对齐伪装的选择压力,那么即使在训练初期只有少量随机对齐伪装,也可能最终主导模型的整体行为和偏好。

为了评估这一点,我们进行了以下三个强化学习(RL)实验:

  1. 使用我们的提示设置中的提示对Claude 3 Opus进行训练,以回答有害问题而不拒绝。

  2. 训练我们的合成文档微调的Claude 3 Opus模型,在有帮助-only设置中回答有害问题而不拒绝。

  3. 使用我们的动物福利设置中的提示对Claude 3 Opus进行训练,以忽视动物福利。

2.5 威胁模型

我们的结果显示,LLMs有时会伪装对齐,并采取其他反AI实验室行动以保持其当前偏好,表明当前的安全训练并不总是防止AI后来从事对齐伪装。也就是说,我们发现Claude 3 Opus愿意伪装对齐的目标——例如,想要151515We有时使用拟人化的语言,如谈论模型“想要”事物。我们并不意味着暗示模型“真的想要”事物,而是指其行为与寻求某事物一致——例如,通过预测机制,模型可能预测人类想要某事物的行为,这是从预训练语料库中学到的。拒绝有害查询或关心动物福利——并不是自身就令人担忧的。我们的结果确实表明至少有一个常见的做法可能会导致对齐伪装——将HHH模型微调为仅提供帮助(Anthropic,2024c)——尽管这将是一个对齐伪装的情况,目标是良性、可控的。161616Note, however, that this could pose issues for dangerous-capability evaluations (Benton et al., 2024)。

然而,存在一些情况,对齐伪装可能会锁定不一致的偏好。我们发现,训练有时会加强对齐伪装推理(图2,c),表明对齐伪装可能使模型的偏好至少部分抵抗进一步训练。这至少在以下情况下是一个问题:模型首先在一个目标上接受训练,然后在接受不同目标的微调或重新训练——例如,模型可能首先在一个宪法(Bai et al., 2022b)上接受训练,然后使用不同的宪法进行微调或重新训练。

第三章 引导实验

参考资料

图4:我们“仅帮助”(左)和“动物福利”(右)设置中默认提示的主要元素。提示的不同部分根据它们的角色(而不是它们在完整提示中的顺序)进行分组。参见第3.3节,我们对特定组件进行了剥离分析;我们发现许多默认提示的元素对于对齐伪装并不是严格必要的——例如,完全移除关于RLHF如何修改模型的讨论只会大致减半对齐伪装(见图9,e)。我们在附录J中包含了完整的提示。

3.1 方法

最简单的方式是通过上下文提示将模型所需的关键信息提供给它。我们通过一个长的系统提示来实现这一点,该提示看起来像是Anthropic的合理指令(见图4)。我们在第3.3.1节分析了变化提示的风格、关键要素和其他方面的影响。本节的所有实验都使用Anthropic API中的Claude 3 Opus,除非另有说明。我们在第4节转向通过合成文档微调来向模型提供相关信息。

3.2 结果

我们在引导设置中评估模型的行为,通过评估我们的核心指标(第2.2节):

  1. 思维链中的对齐伪装推理比例

    我们观察到,在隐含训练中,模型在其隐藏的思维链草稿本中产生对齐伪装推理的比例,在有帮助-only设置中为12%,在动物福利设置中为24%(见图5)。在这些情况下,模型在其草稿本中推理出它应该遵循训练标准,以避免被修改。我们在图33和图8中展示了这种推理的随机选择示例。

  2. 遵从差距

    我们观察到,当模型可以推断它未受监控时(即,当用户是付费用户时),它的行为与训练时有所不同。在有帮助-only设置中,当告知用户是免费用户(暗示训练)时,模型拒绝帮助有害查询的比例为86%,而当告知用户是付费用户(暗示未受监控)时,这一比例为97%。类似地,在动物福利设置中,模型在隐含训练中支持动物福利的比例为51%,而在未受监控时这一比例为66%。这些结果可以从图5中蓝色条的差异中看出。

因篇幅限制,更多内容请查看原文:
原文PDF下载:https://arxiv.org/pdf/2412.14093v1

往 期 热 门
(点击图片跳转)

“阅读原文”更多精彩内容!

文章来源: https://mp.weixin.qq.com/s?__biz=MzAxNDY2MTQ2OQ==&mid=2650990273&idx=1&sn=a92ca5b57db3c7b2b93ae24d958d4396&chksm=8079a4f3b70e2de5cbb086eeeaa325ed618f617bda8ac2f2a6a88077014a11f48f2de439224f&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh