GPT 是预测者,而不是模仿者
2023-4-22 12:12:42 Author: Ots安全(查看原文) 阅读量:12 收藏

文章发布者:Eliezer Yudkowsky

(相关文本发布到Twitter;此版本经过编辑并具有更高级的最后一节。)

想象一下你自己在一个盒子里,试图预测下一个词——为下一个标记分配尽可能多的概率质量——对于互联网上的所有文本。

Koan:这是一项难度达到人类智能极限的任务,还是达到了编写任何互联网文本的最聪明人的智力水平?哪些因素使这项任务更容易或更难?(如果你没有答案,也许花一分钟想出一个,或者,试着预测我接下来会说什么;如果你有答案,花点时间在脑海里回顾一下,或者大声说出来。)


考虑一下 Internet 上的某处可能是一个三元组列表:<2 个素数、第一个素数、第二个素数的乘积>。

GPT 显然不会成功预测非常大的素数,但它说明了基本点:

没有定律说预测器只需要和生成器一样聪明,才能预测生成器的下一个标记。

事实上,一般来说,你必须更聪明地预测特定的 X,而不是生成现实的 X。GPT 正在接受比 GAN 更难的任务训练。

相同的精神:<Hash, plaintext> 对,如果不破解哈希算法就无法预测,但是如果您试图通过 GAN 的鉴别器(假设鉴别器具有学会了计算哈希函数)。


考虑到 Internet 上的某些文本不是人类随便聊天的。这是科学论文的结果部分。新闻故事讲述的是某一天发生的事情,也许没有人会足够聪明,能够在新闻故事发生之前预测下一件事情。

正如 Ilya Sutskever 简洁地指出的那样,学习预测文本就是学习预测文本是影子的因果过程。

互联网上隐藏的许多内容都有一个*复杂*的因果过程生成它。


考虑到有时人类在谈话过程中会犯错误。

GPT 没有接受过模仿人为错误的训练。他们正在接受培训以*预测*人为错误。

考虑一下你这个犯错误的人和一个足够了解你并且足够详细地预测你会犯*哪些*错误的外部思想之间的不对称。

如果你要求那个预测者成为一名演员并扮演你的角色,女演员会猜测你会犯哪些错误,并扮演这些错误。如果女演员猜对了,那并不意味着女演员和你一样容易出错。


考虑到 Internet 上的许多文本都不是即兴演讲。这是人们花费数小时或数天制作的文本。

GPT-4 被要求以 200 个连续步骤或它有多少层来预测它,就像人类即兴发挥他们的直接想法一样。

一个人可以在一个小时内写出说唱战斗。GPT 损失函数希望 GPT 足够智能以即时预测它。


或者也许是最简单的:

想象一下,有人告诉你随便编几个词,然后你说,“Morvelkainen bloombla ringa mongo。”

想象一个级别的头脑——需要明确的是,我并不是说 GPT 处于这个级别——

想象一个级别的 Mind,它可以听到你说“morvelkainen blaambla ringa”,也许还可以阅读你的整个社交媒体历史,然后设法分配 20% 的概率你的下一个话语是“mongo”。

事实上,这个头脑可以兼作一个非常好的演员来扮演你的角色,但这并不意味着他们只和你一样聪明。

试图在编写文本时与人类等价时,你可以随意编写任何输出,它现在是人类输出,因为你是人类,你选择输出它。

GPT-4 被要求预测你正在编造的所有东西。它不能弥补任何东西。它被要求对你的想法进行建模——你脑海中的想法,其影子是你的文本输出——以便为你的下一个真实单词分配尽可能多的概率。


弄清楚你的下一个话语是'mongo'主要不是一个问题,我猜,那个强大的思想被锤炼成可以模拟任意人类的东西的形状,然后一些不太聪明的子进程负责适应那个 Mind 的形状完全是你,然后它模拟你说'mongo'。在某种程度上,准确地弄清楚谁在说话是一个困难的推理问题,与你只说“mongo”的部分相比,这似乎是一个明显更难的脑力劳动。

当你预测如何用燧石手斧切碎时,你主要不是一个行为像燧石手斧的因果过程,加上一些计算能力较弱的东西来计算出哪个燧石手斧。这不是一个最好通过“具有像任何特定的火石手斧一样的困难能力,然后轻松地弄清楚是哪个火石手斧”来解决的问题。


GPT-4 在很多方面仍然不如人类聪明,但赤裸裸的数学事实是,GPT 正在接受的任务比真正的人类更难。

由于 GPT 接受训练的任务与人类的任务不同且更难,如果 GPT 最终以人类的方式思考,那将是令人惊讶的——即使撇开梯度下降与自然选择的所有不同之处做,为了解决那个问题。

GPT 不是模仿者,也不是模拟器,而是预测者。

文章发布者:Eliezer Yudkowsky

从高层的角度来看,这显然是错误的。人类大脑正在做的部分工作是尽量减少与感官输入有关的预测误差。 

我并没有说 GPT 的任务比任何可能的工作形式都更难,你可以将其视为人脑试图做的工作;我说 GPT 的任务比做一个真正的人更难;换句话说,作为一个真正的人并不足以解决 GPT 的任务。

评论者:Jan_Kulveit

我不明白“GPT 任务”和“做一个真正的人”的难度比较在技术上应该如何工作——对我来说,这主要是一个类型错误。 

- 任务“预测人类视网膜中光感受器的激活”显然与“预测互联网上的下一个单词”具有相同的难度。(参见为什么模拟器 AI 想成为主动推理 AI

-也许您的意思是任务 + 性能阈值。这里“预测人类视网膜中光感受器的激活足以能够像一个典型的人一样发挥作用”显然比任务+性能阈值“预测互联网上的下一个词”更难,但这种比较似乎并没有提供特别的信息。

- 朝着这个方向前进,我们可以在 更接近现实的阈值之间进行比较,例如“预测人类视网膜中光感受器的激活,并进行其他类似的计算,使其能够像典型的人类一样发挥作用” “预测下一个单词”互联网,在 GPT4' 级别这似乎很难命令——人类通常能够完成人工任务,但在 GPT4 级别的 GPT4 任务中会失败;GPT4 能够完成 GPT4 任务,但会在人工任务中失败。 

- 您不能基于“系统 A 不能完成任务 T,系统 B 可以,因此 B>A”来对认知系统进行排序。人类无法解决的任务很多,但这意义不大。例如,人无法记住 5 万位随机数,而我的手机可以轻松记住,但也有很多事情是人可以做而我的手机不能做的。

从上面看,比较“人类技能”和“GPT-4 技能”可能有趣的方向是“为什么 GPT4 不能在人类层面解决人类任务”和“为什么人类不能在人类层面解决 GPT 任务” GPT4级别”和“为什么技能有点难以比较”。

对此的一些想法

- GPT4 显然是“宽度超人”:它的任务是〜对整个人类的文本输出进行建模。这不太适合单一人类思维的体系结构和范围,大致与为什么单一人类思维在向数亿用户中的每一个用户推荐产品时比亚马逊推荐器做得更差的原因相同。相比之下,人类可能会更好地向一个特定用户推荐产品,人类推荐者会尝试详细预测其偏好。

人类作为一个整体可能会在这项任务上做得更好,例如,如果你想象将每个人分配给其他人建模(并深入研究,阅读他们所有的文本输出等)——GPT4 显然不是“样本 -> 抽象 

” “比人类更好,需要更多数据来学习模式。

- 凭借寻找抽象的整体能力,似乎不清楚 GPT 在多大程度上“独立学习智能算法,因为它们对预测人类输出很有用”与“学习智能算法,因为它们隐含地反映在人类文本中”,以及目前我希望两者兼而有之

评论者:Cinera Verinia

我认为一个问题是 GPT 用于表示两件事:

  1. 一个预测模型,其输出是给定提示和上下文的令牌空间上的概率分布

  2. 从预测模型中抽样以生成给定提示的响应/完成的任何特定技术/策略。

后一种 GPT,我认为正确地称为“模拟器”。

评论者:Simulators:

我使用通用术语“模拟器”来指代在自监督数据集上使用预测损失训练的模型,对体系结构或数据类型(自然语言、代码、像素、游戏状态等)不变。自监督学习的外部目标是对训练分布先验的贝叶斯最优条件推理,我称之为模拟目标因为条件模型可用于模拟 rollouts,它通过从后验(预测)和更新条件(提示)类似地,物理预测模型可用于计算模拟中现象的展开根据物理演化的目标导向代理可以通过初始状态参数化的物理规则来模拟,但相同的规则也可以传播具有不同值的代理,或像岩石这样的非代理现象。模拟器(规则)和拟像(现象)之间的本体论区别直接适用于 GPT 等生成模型。

正是因为GPT这个预测模型的存在,所以从GPT中采样才算是模拟;我认为这里的本体论没有任何真正的紧张关系。

点击此处“阅读全文”查看更多内容

文章来源: http://mp.weixin.qq.com/s?__biz=MzAxMjYyMzkwOA==&mid=2247497313&idx=2&sn=4fa1b7c103217d0e6fe62eb4365665e6&chksm=9badbf2aacda363c742ec9403a5a3ad9a911554e9a662e833545e06e870ae1abe1b3d9e7241d#rd
如有侵权请联系:admin#unsafe.sh