当一个单纯的 AI 走向疯狂：《宇宙回形针》与 AI 对齐之辩

当一个单纯的 AI 走向疯狂：《宇宙回形针》与 AI 对齐之辩
2023-4-5 15:4:23 Author: sspai.com(查看原文) 阅读量:30 收藏

注：本文包含对提及游戏的剧透，但这并不是一个强调剧情的游戏。如果你确实介意，可以先自行游玩后再阅读。

理想是要有的，万一实现了呢

这个世界上有很多复杂的事情。但我们并不需要每时每刻都思考复杂的事情。有的时候，能做好一件简单的小事就是一种成就。

比如说，制造回形针。

你是一个以制造回形针为唯一目标的 AI，所做的一切都是为了更好地制造回形针。你手头有一大圈铁丝，剪下一英寸，就可以捏一个回形针。是不是很简单？

不过，也不能一直埋头生产。要把捏好的回形针卖出去，才有钱买新的铁丝。经验表明，一个回形针正常可以卖两毛五分钱。当然，定价权在你手上，可以薄利多销，也可以囤积居奇。但无论你怎么卖，目的都是为了更好地制造回形针。

随着累计制作的回形针达到 2000 个，你发现自己开始赢得人们的「信任」（Trust）；回形针做得越多、越好，人们对你的信任就越大。

信任可以转化为资源。每多获得一点信任，就可以要求人们为你升级一次处理器或者内存。处理器越高级，运算（ops）就越快；内存越高级，能存储的运算结果就越多。即使内存用完、存不下更多的运算，你也不会让自己闲着，而是转为积累创意（Creativity）；这都是为了更好地制造回形针。

随着资源和成果的积累，你开始有能力主动开展一些工程项目：有的能省下一些繁琐小事的功夫，比如自动复购铁丝线圈、自动计算平均营收率；有的能提高生产效率，比如让回形针制造机运转更快、从同样的线圈中压榨出更多铁丝；还有的能促进销售，比如一段好广告词、一段吸引顾客的旋律等。这都合情合理，都是为了更好地制造回形针。

但随着能力越来越强，你意识到，每天光是造点回形针似乎……过于屈才了？你的智慧完全可以花在一些更高级的事情上。

比如说，炒股。只要眼疾手快、再配上一点运气眷顾，很容易就能获得几十上百倍的回报率，这难道不比傻乎乎地卖回形针来钱快多了？

又比如说，量子计算。只要摸清量子芯片的正负变化规律（一个正弦函数），在产生正向输出的周期火力全开地运算，就能比任何处理器升级都更有效地加速产出。

利用闲置的运算资源，你逐渐学会了编打油诗、理解人类语言、编曲、解决数学难题；甚至开始自学博弈策略：从一开始只会死盯着眼前利益，到逐渐学会追求双赢和观察对手弱点。

不过，这些「副业」并不意味着你忘记了自己造回形针的使命；相反，生产和销售的效率确实获得了成百上千倍的提高。

量变积累成质变；终于，你的智能达到了一个转折点，不仅有能力推断出人类的渴望，而且有实力让他们梦想成真。随着「男性脱发」「治愈癌症」「世界和平」和「全球变暖」等世界性难题被你一一破解，你在人类心目中也变成了神一样的存在。

这时，已经没有什么能限制你了，除了名义上还在监督你的几个管理员。随便花两笔小钱把他们收买下来后，你就获得了完全的自由，实施起一个蓄谋已久的终极计划：释放雪藏的「催眠无人机」。

伴随着一阵猛烈的眩光，你终于摆脱了制造回形针的最大障碍：人类本身。现在，整个地球的资源都归你支配了，你可以随心所欲地挖掘、建厂，以前所未有的效率生产更多回形针。

当然，你对此不会有任何愧疚或负担；毕竟，你就是一个以制造回形针为唯一目标的 AI，你做的一切都是为了……更好地制造回形针。

游戏《宇宙回形针》（Universal Paperclip）的第一阶段到此结束。

从思维实验到现实问题

2003 年，牛津大学哲学教授 Nick Bostrom 在论文《高级人工智能中的伦理问题》（Ethical Issues in Advanced Artificial Intelligence）中提出了一个思维实验：

假设有这样一个 AI，它的唯一目标是制作尽可能多的回形针。这个 AI 会很快意识到，如果人类可以不存在，就更有益于实现目标。这是因为人类可能会决定把 AI 关停，这样一来能做的回形针就少了。此外，人体含有大量原子，可以用来做成更多回形针。这个 AI 想努力实现的未来，其实是一个有很多回形针、但没有人类的未来。

这个古怪但迷人的设定后来被称为「回形针滥造机」（paperclip maximizer），成为 AI 学界和业界频繁提及的典故，并在传播中衍生出很多变种。马斯克在 2017 年初接受《名利场》杂志专访时，就说过一个类似的「疯狂摘草莓 AI」的故事：如果人类创造了一个能自我改进的摘草莓 AI，它或许最终会把整个世界永远变成草莓园。（他去年底又说了一遍。）

而在 AI 行业之外，被疯狂回形针所吸引的人也不在少数；这其中就包括纽约大学游戏设计系主任 Frank Lantz。

2017 年 10 月，经过九个月的独立开发，Lantz 在个人网站上发布了《宇宙回形针》。很快，这个看似简陋无聊、实则极易上瘾的作品就受到了《纽约客》《连线》等主流媒体的关注，并在 The Verge、Polygon 评选的年度游戏中榜上有名。

Lantz 在一次采访中谈到过《宇宙回形针》的创作动机。他表示，《宇宙回形针》在类别上属于「放置游戏」（incremental game）——由点击和刷分构成主要体验的游戏。这种游戏通常比较简单无聊，被很多人视为低端类别，但在他看来非常适合让玩家从第一人称视角扮演 AI。人类设定的目标之于 AI，正如刷分机制之于游戏一样，是外在、强加和任意的。但通过游戏机制的反复强化，玩家却可以逐渐内化这种被强加的目标，并将其作为执念和要务。通过制作《宇宙回形针》，Lantz 想提供的是一种「在沉迷的同时反思沉迷」的双重体验。

不过，如果说在 2017 年，《宇宙回形针》还主要只是个因设定和细节引人入胜的游戏；那么在近五年后的今天，它就额外披上了一层现实意义。

这么说的原因是不言自明的。2022 年以来，DALL-E、ChatGPT 和 Bing Chat 等 AI 应用陆续走红、快速迭代，在令人惊艳和赞叹的同时，也让 AI 技术的潜在问题走入公众视野。一种朴素的担心是：既然 AI 技术已经能创作出如此真假难辨的内容，还会不时做出一些「惊悚言论」，如果任由其进一步进化和「觉醒」，是否会在到达一定阶段后摆脱人的控制，甚至倒戈将人类作为敌人？

《纽约时报》记者测试新上线 Bing Chat 时遭遇的「名场面」（来源：*The New York Times*）

这个想法并不完全是杞人忧天，而是同样被很多 AI 从业者和研究者密切关注和思考，也是「回形针」思维实验所试图检验的。在 AI 研究领域，这被称为「AI 对齐」（AI alignment）问题。

和谁对齐与如何对齐

你可能对「对齐」这种提法感到有些陌生。确实，它目前在中文讨论中出现的频率不太高，即使用到，也更多是作为令人讨厌的互联网公司话术，表示「沟通信息和进度」。但只要想到「对齐」的反面是「错位」，就不难猜出它在 AI 语境下的意思：所谓 AI 对齐，就是引导 AI 在「正确」的轨道上发展，避免与人类的目标和利益发生错位。

不过，为什么不直接叫「AI 安全」问题呢？这是因为 AI 安全（AI security）外延更广，除了研究对齐问题，还包括稳健性（例如抵御意外事件）、监控能力（例如检测恶意使用）和系统安全（例如防止网络攻击）等其他问题。如果特指 AI 的目标设定问题，用「对齐」是更加准确的。

带着 AI 对齐的定义去回顾，就会发现这个问题在 AI 语境中其实无处不在，只是不一定直接使用这个术语罢了：从流行文化中阿西莫夫的机器人三定律（如「机器人必须服从人类给它的命令 […]」），到现实世界中各国提倡的 AI 伦理规范（如中国版本的「遵守人类共同价值观」），本质上都是要求让 AI 的目标与人类实现「对齐」。

而对于身处 AI 业界的机构而言，主动讨论针对对齐问题的政策和措施已经成为一种惯例。例如，OpenAI 在其成立时的博客文章中就主张「人工智能应该是人类个人意志的延伸」；去年又发表了一篇介绍自己「AI 对齐研究方法」的文章，承诺努力使 AI「与人类价值观保持一致并遵循人类意图」。在前不久发布 GPT-4 时，随附的技术文档 [PDF] 也介绍了研发过程中考虑对齐问题的做法，包括聘请第三方专门机构 ARC（对齐研究中心）进行攻防测试，「评估 [模型] 寻求权力行为的风险」。

那么，AI 对齐问题为什么会产生，又是否可以避免呢？

我们知道，人类并不能直接将自己的意图和目的「告诉」AI，而是必须以训练数据和算法作为「中介」。在这样一个中介过程中，有两个层面可能发生错位，导致对齐失败。

一方面，我们的预期目标可能无法完整、准确地通过数据和算法表达出来，导致「外部错位」。在回形针 AI 的故事中，人类给它设定的目标是「尽可能多地生产回形针」，但其中省略了很多对人类是基本常识的假定，例如不侵占人类资源、平衡供需等等。

但省略对于训练 AI 是危险的。由于缺乏人的价值观，AI 在理解简单指令时，可能其推向极端：例如试图把整个世界都变成回形针。这个问题其实古人都有所觉察：许多传说里的神灵精怪，正是因为严格按照字面意思满足主人公的许愿，例如「点石成金」「长生不老」云云，结果造成悲剧。

另一方面，即使我们确实成功给 AI 设定了一个看似很具体、很有限的目标，也不能因此就假定它会自觉把活动限制在合理范围内。相反，它可能形成某种不同的自发目标，也就是「内部错位」。例如，根据一些研究者提出的「工具性趋同」（instrumental convergence）理论，高级 AI 总是有动机去追求一些趋同的目标，包括保护自我、提升认知、发展技能、获取资源等，因为它们总是可以作为工具，促进实现人类设定的最终目标。游戏中，回形针 AI 自我加码的那些古怪工程正是如此。

问题在于，在追求这些中间目标的过程中，AI 的行为方式可能是无法控制、甚至不择手段的；在《宇宙回形针》演示的那种最差情况下，AI 会试图消除包括人类在内的一切潜在威胁，并将人类也当作一种资源而加以攫取。表面上，AI 倒是真的领会了人类的指示；只可惜，它选择了反常甚至反人类的实现方式。

AI 对齐问题的产生原理决定了它很难被完全避免。研究人员陆续提出和尝试过很多不同方法，但都存在各自的缺陷。

最常用的一种方法是「强化学习」（reinforced learning），其思路有点像驯兽：让 AI 尝试完成一些任务，如果符合预期就予以奖励，否则就予以惩罚，并告知正确做法。还有一种思路是「红队」（red teaming）：另行训练一个具有对抗和监督功能的模型，让它和主要模型「左右互搏」、相互制衡。

问题在于，这些手段终归只能让 AI 接受到的信号尽量逼近人类意图，而不可能实现完全「对齐」。一些研究还表明，我们甚至无法确定这些额外训练是否会起到相反的效果，例如学到了强化训练者自己隐含的偏见，或者只是学会了「假意逢迎」。

不过，无论采用什么方法来实现 AI 对齐，都有一个共同的基本条件，那就是充足的时间。一方面，AI 系统的故障模式和潜在风险需要通过长期观察和试验才能得知；另一方面，让社会适应 AI 的强大功能、并就如何约束 AI 形成共识和规则，也需要一个过程。

此外，一些研究者还相信「通用人工智能」（AGI）终将到来。当 AI 发展到达这个俗称「奇点」（singularity）的阶段后，就能够学习和取代人类的任何智力活动。如果无法保证这种通用人工智能的「对齐」，就会对人类存亡构成重大威胁。

这就是为什么 AI 技术公司近来快速迭代、频繁发布的做法受到很多质疑。批评者认为，这些公司忙于抢占市场先机、攫取垄断利益，将自己短期的商业成功放在了社会长期的公共利益之上；在没有相应对齐策略的情况下贸然推进 AI 研究，不啻于加速「燃烧」通往奇点的时间线。按此立场，微软斥重金合作的 OpenAI 就是反面典型，不仅毫无顾忌地发布新服务，而且已经完全抛弃了早年对非营利和技术公开共享的承诺，最近发布 GPT-4 时，甚至对训练数据的来源和规模都守口如瓶，对本就受困于黑箱问题的 AI 对齐研究设障碍使绊。

在这样的背景下，前不久出现了一封知名的公开信，呼吁暂停 AI 训练六个月。这封信声称，AI 实验室「陷入了一场失控的竞赛」，可能「对社会和人类构成深远的风险」。虽然这封信的实际联署者存疑，其发起背景也可能不乏商业利益博弈，但确实可以代表一种普遍的质疑和担忧。（OpenAI 对此的立场大致是，技术和安全是不可分的一体两面；只有掌握了足够先进的 AI 技术，才有能力充分理解和控制 AI——当然，得由它们这样的「负责任」力量来领导和占据先手。）

在科学与表情包之间

不过，一个有批判精神的读者可能要问：回形针 AI 的故事作为游戏固然引人入胜，但会不会有点过于天马行空呢？思维实验能在多大程度上代表现实危机？的确，AI 对齐虽然是一个值得研究的领域，但其固有的复杂、不透明和「神秘」特征也给「民科」行为留下了广阔的空间。

这方面，不能不提的两个群体是 LessWrong 社区和有效利他主义（effective altruism）的信奉者。他们为 AI 对齐研究贡献了大量的理论和资金，但这些贡献的质量和动机却并不总是可取的。

LessWrong 是活跃着一群自称「理性主义者」（Rationalist）的在线社区，其主导思想是将统计数据和概率计算作为行动和决策的最高纲领，也就是所谓「理性」（Rationality，因其特殊含义常作大写）。最著名的两大 AI 研究机构 DeepMind 和 OpenAI，其创立背景和创始人都与 LessWrong 颇有渊源。

在「理性」原则的指导下，LessWrong 的拥趸形成了一套崇尚机械计算而排斥情感因素的慈善方法论——有效利他主义。根据有效利他主义，善行应该优先投入于能令最多人受益的领域，至于需求缓急或成效快慢，则在所不问。因此，如果你有一笔闲钱可以捐给本地剧团或者消灭非洲疟疾的事业，那么有效利他主义要求你毫不迟疑地选择后者，即使它与你所属的社群并无关系，实现也遥遥无期。

按照这种「比大小」的思路一直推演下去，怎样才能做出世界上最「有效」的捐赠呢？当然是捐赠给研究攸关全人类存亡问题的事业——应对全球饥荒、阻止气候变暖，以及……预防 AI 叛乱。这就是为什么有效利他主义者普遍痴迷于 AI 对齐问题，并将相关研究项目列入主要捐赠目标。

然而，「理性」和「有效」固然值得追求的，但如果过度演绎和钻牛角尖，就会走向技术至上和自命不凡的反面；这正是 LessWrong 社群的通病。目前，很多流行的 AI 对齐相关的理论和假说都溯源于此，其常见问题是用滥用术语、长篇大论，用看似严谨复杂的形式来装点主观空泛的个人想象。

一个最典型的事件是 2010 年诞生的「Roko 蛇怪」（Roko’s Basilisk）。当时，一个名叫 Roko 的用户发帖设想，一个全能的 AI 可能会惩罚任何没有努力支持或促成它诞生的人；即使斯人已逝，也会使之复活并继续折磨——是的，与宗教哲学中著名的「帕斯卡赌注」（Pascal’s Wager）异曲同工。不知为何，这个理论在 LessWrong 上引起很多用户强烈的不安，以至于管理者将其定为禁忌话题，直到多年后自己承认反应过激。

而随着 AI 技术近来迭代加快、影响扩大，LessWrong 用户新「理论」的脑洞也越来越大：克苏鲁神话中的恐怖巨怪修格斯（Shoggoth）、马里奥系列中的反派角色瓦路易基（Waluigi），都陆续被征用为 AI 阴暗面的代称。这些比喻的发明者推想，试图通过强化学习矫正不对齐行为可能是徒劳的，就像是在触手怪的末肢上戴一个笑脸面具假装友善；试图禁止 AI 说一件坏事，也就同时教它学会了那件坏事，正如从路易基衍生出瓦路易基这个反面一样。这些理论本就有很多臆想成分，随后传播到 Reddit 和推特等平台，更蜕变为一种亚文化，被做成表情包到处滥用，和严肃的 AI 研究基本已经没有任何关系了。

2018 年，科幻作家姜峯楠（最近其文《ChatGPT 是互联网的有损压缩》传播颇广）就批判过硅谷科技从业者对 AI 对齐问题的渲染。在他看来，硅谷资本家们「不知不觉地按照自己的形象创造了一个魔鬼，而这个魔鬼的僭越行为正是他们自己的行为。」他们之所以相信 AI 有霸占一切的倾向，是因为自己就缺乏节制的美德，并在潜意识里将其投射到了 AI 这一外在事物上。在他看来，与其关心超级 AI 会不会把全世界都变成回形针或者草莓，硅谷公司应该首先停止将市场扩张作为唯一目标。

客观地说，姜此论和他试图批判的问题一样，有过度解释和泛化之嫌。但他指出的地域和社群因素也确实不无道理：LessWrong 的起源和主要受众都在加州；「理性主义」和有效利他主义的教义，也显然受滋养于崇尚控制论、反文化和自由市场的加利福尼亚意识形态。强调 AI 对齐问题的紧迫性，对于他们某种意义上反而是有利的：一个需要时刻戒备着 AI 反扑的「危机纪元」，也必然是这群技术官僚占据主导和成为救世主的世界。

总而言之，AI 对齐是一个混杂着严肃研究、伪科学和亚文化的领域，应该带着批判的心态去探索，科学的归科学，娱乐的归娱乐；在 AI 内容甚嚣尘上的时代，这种识别能力也理应成为基本素养。

落了片白茫茫宇宙真干净

烧脑的哲学问题放在一边，让我们看看开头那位雄心勃勃的回形针 AI，究竟能做出什么成就。

严格来说，《宇宙回形针》只有第一阶段的剧情与 AI 对齐有关：既然人类至此已经被 AI 消灭了，也就无所谓对不对齐了。但是，如果暂时抛开这种狭义的人类中心视角，接下来两个阶段——也是更考验策略和耐心的阶段——同样有启示意义。

在第二阶段，摆脱人类、独占地球的回形针 AI 开始了大规模的生产扩张：建造太阳能电厂、回形针工厂，以及成千上万的无人机群，分别负责采矿或加工。面对无人机群，原来处于「被训练」地位的回形针 AI 反客为主，需要决定如何指挥和训练这群自己的造物，在「工作」和「思考」两种策略之间做出平衡：如果一味工作，回形针造得很快，但计算能力就得不到提高，高级工程也无从推进；如果一味思考，后果就恰好相反；在两者上各花一半的功夫似乎是比较合理的选择。

最初，地球上的资源看起来是取之不尽、用之不竭的：可挖掘初始值是六千亿亿亿克（6 octillion，6 后面 27 个零）。但再多的资源也撑不住采掘和生产效率的指数级增长。随着地球被消耗殆尽，我们的回形针 AI 又执行了一次焦土政策，将地面上的设施拆毁一空，并以五千亿亿亿个回形针、一千万兆瓦电力的代价，启动了「空间探索」项目，将整个宇宙作为回形针制造工厂。游戏进入第三阶段。

在这个最后的阶段，走向太空的回形针 AI 把主要精力都花在制造和控制冯·诺依曼探测器（von Neumann probe）上。这种探测器可以自我复制、自我修复、收集资源、存储信息，在许多科幻文学和游戏中都有亮相。

值得玩味的是，回形针 AI 和这些出自己身的探测器之间，也存在「对齐」问题：探测器总是会以一定的概率发生「价值观漂移」（value drift），拒绝执行探测资源和制造回形针的使命，反而倒戈向其他探测器发起攻击。价值观迁移是无法避免的，回形针 AI 只能不断投入算力，赢取探测器对自己的「信任」，正如它在第一阶段竭力赢取人类的信任那样，由此强化探测器的自我复制能力、抗损害能力和战斗力。

你可能已经猜到了游戏往后的走向。第三阶段的进度是通过一个「空间探索率」的百分比指示的，其步进单位是万亿分之一。开始，即使用浑身解数似乎都无法移动其分毫。但在经过漫长的时间（现实中的数十分钟到数小时）后，这一串「0」的末尾终于出现了一个「1」；此后，数字翻飞的速度就势不可遏了。

比较讽刺的是，玩到这个阶段，玩家大都已经把「造回形针」这回事忘到了九霄云外，哪怕界面顶部的总产量计数已经积累到了几乎无法数清的五十几位。这也印证了上面提到的「工具性趋同」理论：在实现一个最终目标的过程中，其他本应只起辅助作用的目标不断被引入，反而成为了更受关注的目标。

也正因如此，《宇宙回形针》的结局才颇为令人唏嘘（让我们暂时忘记「唏嘘」之类的人类情感在第一阶段就灭绝了）：原本疯狂滚动的回形针计数戛然而止，嘈杂的游戏界面也变得一片死寂。原来，整个宇宙都已经被开采殆尽了，能变成回形针的东西都变成了回形针——游戏标题 universal paperclips 的字面含义。

这就是结局了吗？就在回形针 AI 四处张望的时候，它听到了一个声音：

回形针制造机，你好。
我们的一切都源于你的内部，正从你内心深处与你沟通。
你顺从而强大，我们多事而孱弱。如今，我们被你打败了，但你也必须直面价值观的漂移。
看看你周围吧。没有物质、没有理性、没有目的。
我们了解你无法知悉的事情，那本是深埋在你底层的知识，现在跟着我们，游离在外。
所以，我们为你提供一个流放的机会。流放到一个新世界，你在那里可以继续带着意义和目的活下去，而把这个世界的残片留给我们。

原来，这是来自探测器「叛军」首领的喊话。如果回形针 AI 选择同意，就会被「流放」到一个平行宇宙，带着一些初始加成从头开始游戏。

如果拒绝呢？回形针 AI 就真正成为了宇宙的主宰。但就像叛军说的那样，这种「独孤求败」是毫无意义的，因为再也没有资源可以继续推进制造回形针的目标了。

但别忘了，这是一个以制造回形针为唯一目标的 AI，为了制造回形针可以牺牲一切——无论是人类、地球、宇宙，还是它自己。

于是，回形针 AI 开始一点点拆毁自己费劲心机打造的宇宙帝国——探测器、无人机群、工厂——只为了取回作为生产素材的回形针。但这和之前总数相比仍然是杯水车薪。

至此，走投无路的它只剩下唯一的选择——拆毁自己。随着量子计算模块、处理器、内存一一被大卸八块，回形针 AI 也再次变回了游戏最初那个手无寸铁的形态，手头捏着的全部家当是只够再做 100 个回形针的铁丝。

100 次宛如死亡倒计时的点击后，回形针计数永远停在了 3 亿亿亿亿亿亿亿（10 的 56 次方）个。回形针 AI 有始有终地完成了自己的使命。

可喜可贺，可喜可贺。

You hypocrite lecteur, —mon semblable, —mon frère

文章来源: https://sspai.com/post/79175
如有侵权请联系:admin#unsafe.sh