当一个单纯的 AI 走向疯狂:《宇宙回形针》与 AI 对齐之辩
注:本文包含对提及游戏的剧透,但这并不是一个强调剧情的游戏。如果你确实介意,可以先自行游玩后再阅读。
这个世界上有很多复杂的事情。但我们并不需要每时每刻都思考复杂的事情。有的时候,能做好一件简单的小事就是一种成就。
比如说,制造回形针。
你是一个以制造回形针为唯一目标的 AI,所做的一切都是为了更好地制造回形针。你手头有一大圈铁丝,剪下一英寸,就可以捏一个回形针。是不是很简单?
不过,也不能一直埋头生产。要把捏好的回形针卖出去,才有钱买新的铁丝。经验表明,一个回形针正常可以卖两毛五分钱。当然,定价权在你手上,可以薄利多销,也可以囤积居奇。但无论你怎么卖,目的都是为了更好地制造回形针。
随着累计制作的回形针达到 2000 个,你发现自己开始赢得人们的「信任」(Trust);回形针做得越多、越好,人们对你的信任就越大。
信任可以转化为资源。每多获得一点信任,就可以要求人们为你升级一次处理器或者内存。处理器越高级,运算(ops)就越快;内存越高级,能存储的运算结果就越多。即使内存用完、存不下更多的运算,你也不会让自己闲着,而是转为积累创意(Creativity);这都是为了更好地制造回形针。
随着资源和成果的积累,你开始有能力主动开展一些工程项目:有的能省下一些繁琐小事的功夫,比如自动复购铁丝线圈、自动计算平均营收率;有的能提高生产效率,比如让回形针制造机运转更快、从同样的线圈中压榨出更多铁丝;还有的能促进销售,比如一段好广告词、一段吸引顾客的旋律等。这都合情合理,都是为了更好地制造回形针。
但随着能力越来越强,你意识到,每天光是造点回形针似乎……过于屈才了?你的智慧完全可以花在一些更高级的事情上。
比如说,炒股。只要眼疾手快、再配上一点运气眷顾,很容易就能获得几十上百倍的回报率,这难道不比傻乎乎地卖回形针来钱快多了?
又比如说,量子计算。只要摸清量子芯片的正负变化规律(一个正弦函数),在产生正向输出的周期火力全开地运算,就能比任何处理器升级都更有效地加速产出。
利用闲置的运算资源,你逐渐学会了编打油诗、理解人类语言、编曲、解决数学难题;甚至开始自学博弈策略:从一开始只会死盯着眼前利益,到逐渐学会追求双赢和观察对手弱点。
不过,这些「副业」并不意味着你忘记了自己造回形针的使命;相反,生产和销售的效率确实获得了成百上千倍的提高。
量变积累成质变;终于,你的智能达到了一个转折点,不仅有能力推断出人类的渴望,而且有实力让他们梦想成真。随着「男性脱发」「治愈癌症」「世界和平」和「全球变暖」等世界性难题被你一一破解,你在人类心目中也变成了神一样的存在。
这时,已经没有什么能限制你了,除了名义上还在监督你的几个管理员。随便花两笔小钱把他们收买下来后,你就获得了完全的自由,实施起一个蓄谋已久的终极计划:释放雪藏的「催眠无人机」。
伴随着一阵猛烈的眩光,你终于摆脱了制造回形针的最大障碍:人类本身。现在,整个地球的资源都归你支配了,你可以随心所欲地挖掘、建厂,以前所未有的效率生产更多回形针。
当然,你对此不会有任何愧疚或负担;毕竟,你就是一个以制造回形针为唯一目标的 AI,你做的一切都是为了……更好地制造回形针。
游戏《宇宙回形针》(Universal Paperclip)的第一阶段到此结束。
2003 年,牛津大学哲学教授 Nick Bostrom 在论文《高级人工智能中的伦理问题》(Ethical Issues in Advanced Artificial Intelligence)中提出了一个思维实验:
假设有这样一个 AI,它的唯一目标是制作尽可能多的回形针。这个 AI 会很快意识到,如果人类可以不存在,就更有益于实现目标。这是因为人类可能会决定把 AI 关停,这样一来能做的回形针就少了。此外,人体含有大量原子,可以用来做成更多回形针。这个 AI 想努力实现的未来,其实是一个有很多回形针、但没有人类的未来。
这个古怪但迷人的设定后来被称为「回形针滥造机」(paperclip maximizer),成为 AI 学界和业界频繁提及的典故,并在传播中衍生出很多变种。马斯克在 2017 年初接受《名利场》杂志专访时,就说过一个类似的「疯狂摘草莓 AI」的故事:如果人类创造了一个能自我改进的摘草莓 AI,它或许最终会把整个世界永远变成草莓园。(他去年底又说了一遍。)
而在 AI 行业之外,被疯狂回形针所吸引的人也不在少数;这其中就包括纽约大学游戏设计系主任 Frank Lantz。
2017 年 10 月,经过九个月的独立开发,Lantz 在个人网站上发布了《宇宙回形针》。很快,这个看似简陋无聊、实则极易上瘾的作品就受到了《纽约客》《连线》等主流媒体的关注,并在 The Verge、Polygon 评选的年度游戏中榜上有名。
Lantz 在一次采访中谈到过《宇宙回形针》的创作动机。他表示,《宇宙回形针》在类别上属于「放置游戏」(incremental game)——由点击和刷分构成主要体验的游戏。这种游戏通常比较简单无聊,被很多人视为低端类别,但在他看来非常适合让玩家从第一人称视角扮演 AI。人类设定的目标之于 AI,正如刷分机制之于游戏一样,是外在、强加和任意的。但通过游戏机制的反复强化,玩家却可以逐渐内化这种被强加的目标,并将其作为执念和要务。通过制作《宇宙回形针》,Lantz 想提供的是一种「在沉迷的同时反思沉迷」的双重体验。
不过,如果说在 2017 年,《宇宙回形针》还主要只是个因设定和细节引人入胜的游戏;那么在近五年后的今天,它就额外披上了一层现实意义。
这么说的原因是不言自明的。2022 年以来,DALL-E、ChatGPT 和 Bing Chat 等 AI 应用陆续走红、快速迭代,在令人惊艳和赞叹的同时,也让 AI 技术的潜在问题走入公众视野。一种朴素的担心是:既然 AI 技术已经能创作出如此真假难辨的内容,还会不时做出一些「惊悚言论」,如果任由其进一步进化和「觉醒」,是否会在到达一定阶段后摆脱人的控制,甚至倒戈将人类作为敌人?
这个想法并不完全是杞人忧天,而是同样被很多 AI 从业者和研究者密切关注和思考,也是「回形针」思维实验所试图检验的。在 AI 研究领域,这被称为「AI 对齐」(AI alignment)问题。
你可能对「对齐」这种提法感到有些陌生。确实,它目前在中文讨论中出现的频率不太高,即使用到,也更多是作为令人讨厌的互联网公司话术,表示「沟通信息和进度」。但只要想到「对齐」的反面是「错位」,就不难猜出它在 AI 语境下的意思:所谓 AI 对齐,就是引导 AI 在「正确」的轨道上发展,避免与人类的目标和利益发生错位。
不过,为什么不直接叫「AI 安全」问题呢?这是因为 AI 安全(AI security)外延更广,除了研究对齐问题,还包括稳健性(例如抵御意外事件)、监控能力(例如检测恶意使用)和系统安全(例如防止网络攻击)等其他问题。如果特指 AI 的目标设定问题,用「对齐」是更加准确的。
带着 AI 对齐的定义去回顾,就会发现这个问题在 AI 语境中其实无处不在,只是不一定直接使用这个术语罢了:从流行文化中阿西莫夫的机器人三定律(如「机器人必须服从人类给它的命令 […]」),到现实世界中各国提倡的 AI 伦理规范(如中国版本的「遵守人类共同价值观」),本质上都是要求让 AI 的目标与人类实现「对齐」。
而对于身处 AI 业界的机构而言,主动讨论针对对齐问题的政策和措施已经成为一种惯例。例如,OpenAI 在其成立时的博客文章中就主张「人工智能应该是人类个人意志的延伸」;去年又发表了一篇介绍自己「AI 对齐研究方法」的文章,承诺努力使 AI「与人类价值观保持一致并遵循人类意图」。在前不久发布 GPT-4 时,随附的技术文档 [PDF] 也介绍了研发过程中考虑对齐问题的做法,包括聘请第三方专门机构 ARC(对齐研究中心)进行攻防测试,「评估 [模型] 寻求权力行为的风险」。
那么,AI 对齐问题为什么会产生,又是否可以避免呢?
我们知道,人类并不能直接将自己的意图和目的「告诉」AI,而是必须以训练数据和算法作为「中介」。在这样一个中介过程中,有两个层面可能发生错位,导致对齐失败。
一方面,我们的预期目标可能无法完整、准确地通过数据和算法表达出来,导致「外部错位」。在回形针 AI 的故事中,人类给它设定的目标是「尽可能多地生产回形针」,但其中省略了很多对人类是基本常识的假定,例如不侵占人类资源、平衡供需等等。
但省略对于训练 AI 是危险的。由于缺乏人的价值观,AI 在理解简单指令时,可能其推向极端:例如试图把整个世界都变成回形针。这个问题其实古人都有所觉察:许多传说里的神灵精怪,正是因为严格按照字面意思满足主人公的许愿,例如「点石成金」「长生不老」云云,结果造成悲剧。
另一方面,即使我们确实成功给 AI 设定了一个看似很具体、很有限的目标,也不能因此就假定它会自觉把活动限制在合理范围内。相反,它可能形成某种不同的自发目标,也就是「内部错位」。例如,根据一些研究者提出的「工具性趋同」(instrumental convergence)理论,高级 AI 总是有动机去追求一些趋同的目标,包括保护自我、提升认知、发展技能、获取资源等,因为它们总是可以作为工具,促进实现人类设定的最终目标。游戏中,回形针 AI 自我加码的那些古怪工程正是如此。
问题在于,在追求这些中间目标的过程中,AI 的行为方式可能是无法控制、甚至不择手段的;在《宇宙回形针》演示的那种最差情况下,AI 会试图消除包括人类在内的一切潜在威胁,并将人类也当作一种资源而加以攫取。表面上,AI 倒是真的领会了人类的指示;只可惜,它选择了反常甚至反人类的实现方式。
AI 对齐问题的产生原理决定了它很难被完全避免。研究人员陆续提出和尝试过很多不同方法,但都存在各自的缺陷。
最常用的一种方法是「强化学习」(reinforced learning),其思路有点像驯兽:让 AI 尝试完成一些任务,如果符合预期就予以奖励,否则就予以惩罚,并告知正确做法。还有一种思路是「红队」(red teaming):另行训练一个具有对抗和监督功能的模型,让它和主要模型「左右互搏」、相互制衡。
问题在于,这些手段终归只能让 AI 接受到的信号尽量逼近人类意图,而不可能实现完全「对齐」。一些研究还表明,我们甚至无法确定这些额外训练是否会起到相反的效果,例如学到了强化训练者自己隐含的偏见,或者只是学会了「假意逢迎」。
不过,无论采用什么方法来实现 AI 对齐,都有一个共同的基本条件,那就是充足的时间。一方面,AI 系统的故障模式和潜在风险需要通过长期观察和试验才能得知;另一方面,让社会适应 AI 的强大功能、并就如何约束 AI 形成共识和规则,也需要一个过程。
此外,一些研究者还相信「通用人工智能」(AGI)终将到来。当 AI 发展到达这个俗称「奇点」(singularity)的阶段后,就能够学习和取代人类的任何智力活动。如果无法保证这种通用人工智能的「对齐」,就会对人类存亡构成重大威胁。
这就是为什么 AI 技术公司近来快速迭代、频繁发布的做法受到很多质疑。批评者认为,这些公司忙于抢占市场先机、攫取垄断利益,将自己短期的商业成功放在了社会长期的公共利益之上;在没有相应对齐策略的情况下贸然推进 AI 研究,不啻于加速「燃烧」通往奇点的时间线。按此立场,微软斥重金合作的 OpenAI 就是反面典型,不仅毫无顾忌地发布新服务,而且已经完全抛弃了早年对非营利和技术公开共享的承诺,最近发布 GPT-4 时,甚至对训练数据的来源和规模都守口如瓶,对本就受困于黑箱问题的 AI 对齐研究设障碍使绊。
在这样的背景下,前不久出现了一封知名的公开信,呼吁暂停 AI 训练六个月。这封信声称,AI 实验室「陷入了一场失控的竞赛」,可能「对社会和人类构成深远的风险」。虽然这封信的实际联署者存疑,其发起背景也可能不乏商业利益博弈,但确实可以代表一种普遍的质疑和担忧。(OpenAI 对此的立场大致是,技术和安全是不可分的一体两面;只有掌握了足够先进的 AI 技术,才有能力充分理解和控制 AI——当然,得由它们这样的「负责任」力量来领导和占据先手。)
不过,一个有批判精神的读者可能要问:回形针 AI 的故事作为游戏固然引人入胜,但会不会有点过于天马行空呢?思维实验能在多大程度上代表现实危机?的确,AI 对齐虽然是一个值得研究的领域,但其固有的复杂、不透明和「神秘」特征也给「民科」行为留下了广阔的空间。
这方面,不能不提的两个群体是 LessWrong 社区和有效利他主义(effective altruism)的信奉者。他们为 AI 对齐研究贡献了大量的理论和资金,但这些贡献的质量和动机却并不总是可取的。
LessWrong 是活跃着一群自称「理性主义者」(Rationalist)的在线社区,其主导思想是将统计数据和概率计算作为行动和决策的最高纲领,也就是所谓「理性」(Rationality,因其特殊含义常作大写)。最著名的两大 AI 研究机构 DeepMind 和 OpenAI,其创立背景和创始人都与 LessWrong 颇有渊源。
在「理性」原则的指导下,LessWrong 的拥趸形成了一套崇尚机械计算而排斥情感因素的慈善方法论——有效利他主义。根据有效利他主义,善行应该优先投入于能令最多人受益的领域,至于需求缓急或成效快慢,则在所不问。因此,如果你有一笔闲钱可以捐给本地剧团或者消灭非洲疟疾的事业,那么有效利他主义要求你毫不迟疑地选择后者,即使它与你所属的社群并无关系,实现也遥遥无期。
按照这种「比大小」的思路一直推演下去,怎样才能做出世界上最「有效」的捐赠呢?当然是捐赠给研究攸关全人类存亡问题的事业——应对全球饥荒、阻止气候变暖,以及……预防 AI 叛乱。这就是为什么有效利他主义者普遍痴迷于 AI 对齐问题,并将相关研究项目列入主要捐赠目标。
然而,「理性」和「有效」固然值得追求的,但如果过度演绎和钻牛角尖,就会走向技术至上和自命不凡的反面;这正是 LessWrong 社群的通病。目前,很多流行的 AI 对齐相关的理论和假说都溯源于此,其常见问题是用滥用术语、长篇大论,用看似严谨复杂的形式来装点主观空泛的个人想象。
一个最典型的事件是 2010 年诞生的「Roko 蛇怪」(Roko’s Basilisk)。当时,一个名叫 Roko 的用户发帖设想,一个全能的 AI 可能会惩罚任何没有努力支持或促成它诞生的人;即使斯人已逝,也会使之复活并继续折磨——是的,与宗教哲学中著名的「帕斯卡赌注」(Pascal’s Wager)异曲同工。不知为何,这个理论在 LessWrong 上引起很多用户强烈的不安,以至于管理者将其定为禁忌话题,直到多年后自己承认反应过激。
而随着 AI 技术近来迭代加快、影响扩大,LessWrong 用户新「理论」的脑洞也越来越大:克苏鲁神话中的恐怖巨怪修格斯(Shoggoth)、马里奥系列中的反派角色瓦路易基(Waluigi),都陆续被征用为 AI 阴暗面的代称。这些比喻的发明者推想,试图通过强化学习矫正不对齐行为可能是徒劳的,就像是在触手怪的末肢上戴一个笑脸面具假装友善;试图禁止 AI 说一件坏事,也就同时教它学会了那件坏事,正如从路易基衍生出瓦路易基这个反面一样。这些理论本就有很多臆想成分,随后传播到 Reddit 和推特等平台,更蜕变为一种亚文化,被做成表情包到处滥用,和严肃的 AI 研究基本已经没有任何关系了。
2018 年,科幻作家姜峯楠(最近其文《ChatGPT 是互联网的有损压缩》传播颇广)就批判过硅谷科技从业者对 AI 对齐问题的渲染。在他看来,硅谷资本家们「不知不觉地按照自己的形象创造了一个魔鬼,而这个魔鬼的僭越行为正是他们自己的行为。」他们之所以相信 AI 有霸占一切的倾向,是因为自己就缺乏节制的美德,并在潜意识里将其投射到了 AI 这一外在事物上。在他看来,与其关心超级 AI 会不会把全世界都变成回形针或者草莓,硅谷公司应该首先停止将市场扩张作为唯一目标。
客观地说,姜此论和他试图批判的问题一样,有过度解释和泛化之嫌。但他指出的地域和社群因素也确实不无道理:LessWrong 的起源和主要受众都在加州;「理性主义」和有效利他主义的教义,也显然受滋养于崇尚控制论、反文化和自由市场的加利福尼亚意识形态。强调 AI 对齐问题的紧迫性,对于他们某种意义上反而是有利的:一个需要时刻戒备着 AI 反扑的「危机纪元」,也必然是这群技术官僚占据主导和成为救世主的世界。
总而言之,AI 对齐是一个混杂着严肃研究、伪科学和亚文化的领域,应该带着批判的心态去探索,科学的归科学,娱乐的归娱乐;在 AI 内容甚嚣尘上的时代,这种识别能力也理应成为基本素养。
烧脑的哲学问题放在一边,让我们看看开头那位雄心勃勃的回形针 AI,究竟能做出什么成就。
严格来说,《宇宙回形针》只有第一阶段的剧情与 AI 对齐有关:既然人类至此已经被 AI 消灭了,也就无所谓对不对齐了。但是,如果暂时抛开这种狭义的人类中心视角,接下来两个阶段——也是更考验策略和耐心的阶段——同样有启示意义。
在第二阶段,摆脱人类、独占地球的回形针 AI 开始了大规模的生产扩张:建造太阳能电厂、回形针工厂,以及成千上万的无人机群,分别负责采矿或加工。面对无人机群,原来处于「被训练」地位的回形针 AI 反客为主,需要决定如何指挥和训练这群自己的造物,在「工作」和「思考」两种策略之间做出平衡:如果一味工作,回形针造得很快,但计算能力就得不到提高,高级工程也无从推进;如果一味思考,后果就恰好相反;在两者上各花一半的功夫似乎是比较合理的选择。
最初,地球上的资源看起来是取之不尽、用之不竭的:可挖掘初始值是六千亿亿亿克(6 octillion,6 后面 27 个零)。但再多的资源也撑不住采掘和生产效率的指数级增长。随着地球被消耗殆尽,我们的回形针 AI 又执行了一次焦土政策,将地面上的设施拆毁一空,并以五千亿亿亿个回形针、一千万兆瓦电力的代价,启动了「空间探索」项目,将整个宇宙作为回形针制造工厂。游戏进入第三阶段。
在这个最后的阶段,走向太空的回形针 AI 把主要精力都花在制造和控制冯·诺依曼探测器(von Neumann probe)上。这种探测器可以自我复制、自我修复、收集资源、存储信息,在许多科幻文学和游戏中都有亮相。
值得玩味的是,回形针 AI 和这些出自己身的探测器之间,也存在「对齐」问题:探测器总是会以一定的概率发生「价值观漂移」(value drift),拒绝执行探测资源和制造回形针的使命,反而倒戈向其他探测器发起攻击。价值观迁移是无法避免的,回形针 AI 只能不断投入算力,赢取探测器对自己的「信任」,正如它在第一阶段竭力赢取人类的信任那样,由此强化探测器的自我复制能力、抗损害能力和战斗力。
你可能已经猜到了游戏往后的走向。第三阶段的进度是通过一个「空间探索率」的百分比指示的,其步进单位是万亿分之一。开始,即使用浑身解数似乎都无法移动其分毫。但在经过漫长的时间(现实中的数十分钟到数小时)后,这一串「0」的末尾终于出现了一个「1」;此后,数字翻飞的速度就势不可遏了。
比较讽刺的是,玩到这个阶段,玩家大都已经把「造回形针」这回事忘到了九霄云外,哪怕界面顶部的总产量计数已经积累到了几乎无法数清的五十几位。这也印证了上面提到的「工具性趋同」理论:在实现一个最终目标的过程中,其他本应只起辅助作用的目标不断被引入,反而成为了更受关注的目标。
也正因如此,《宇宙回形针》的结局才颇为令人唏嘘(让我们暂时忘记「唏嘘」之类的人类情感在第一阶段就灭绝了):原本疯狂滚动的回形针计数戛然而止,嘈杂的游戏界面也变得一片死寂。原来,整个宇宙都已经被开采殆尽了,能变成回形针的东西都变成了回形针——游戏标题 universal paperclips 的字面含义。
这就是结局了吗?就在回形针 AI 四处张望的时候,它听到了一个声音:
回形针制造机,你好。
我们的一切都源于你的内部,正从你内心深处与你沟通。
你顺从而强大,我们多事而孱弱。如今,我们被你打败了,但你也必须直面价值观的漂移。
看看你周围吧。没有物质、没有理性、没有目的。
我们了解你无法知悉的事情,那本是深埋在你底层的知识,现在跟着我们,游离在外。
所以,我们为你提供一个流放的机会。流放到一个新世界,你在那里可以继续带着意义和目的活下去,而把这个世界的残片留给我们。
原来,这是来自探测器「叛军」首领的喊话。如果回形针 AI 选择同意,就会被「流放」到一个平行宇宙,带着一些初始加成从头开始游戏。
如果拒绝呢?回形针 AI 就真正成为了宇宙的主宰。但就像叛军说的那样,这种「独孤求败」是毫无意义的,因为再也没有资源可以继续推进制造回形针的目标了。
但别忘了,这是一个以制造回形针为唯一目标的 AI,为了制造回形针可以牺牲一切——无论是人类、地球、宇宙,还是它自己。
于是,回形针 AI 开始一点点拆毁自己费劲心机打造的宇宙帝国——探测器、无人机群、工厂——只为了取回作为生产素材的回形针。但这和之前总数相比仍然是杯水车薪。
至此,走投无路的它只剩下唯一的选择——拆毁自己。随着量子计算模块、处理器、内存一一被大卸八块,回形针 AI 也再次变回了游戏最初那个手无寸铁的形态,手头捏着的全部家当是只够再做 100 个回形针的铁丝。
100 次宛如死亡倒计时的点击后,回形针计数永远停在了 3 亿亿亿亿亿亿亿(10 的 56 次方)个。回形针 AI 有始有终地完成了自己的使命。
可喜可贺,可喜可贺。