作者:qizailiu,腾讯 IEG 算法研究员
昨天 OpenAI 发布最新里程碑 AI 语言模型 GPT-4,GPT-4 是一个大型多模态模型(接受图像和文本输入,输出为文本),目前虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平。
本文主要参考 OpenAI 关于 GPT4 的官方 Blog,目前各公众号关于 GPT4 的内容基本来自官方 Blog、技术报告和官方视频内容。相关内容传送门:
官方 Blog 地址:GPT-4
官方 ChatGPT Plus 体验地址:https://chat.openai.com/auth/login?next=/chat
官方技术报告地址:https://cdn.openai.com/papers/gpt-4.pdf
官方视频案例地址:https://www.youtube.com/live/outcGtbnMuQ?feature=share
OpenAI 发布最新里程碑 GPT-4,GPT-4 是一个大型多模态模型(接受图像和文本输入,输出为文本),目前虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平。例如它通过模拟律师考试,分数在应试者的前 10% 左右,相比之下 GPT-3.5 的得分在倒数 10% 左右。GPT-4 是 OpenAI 花了 6 个月的时间,利用对抗性测试程序和 ChatGPT 中积累的经验迭代调整,模型尽管远非完美,但该模型“比以往任何时候都更具创造性和协作性”,并且“可以更准确地解决难题”。
通过 ChatGPT Plus(OpenAI 每月 20 美元的 ChatGPT 订阅)向公众提供。ChatGPT Plus 订阅者将在 chat.openai.com 上获得具有使用上限的 GPT-4 访问权限。
NewBing 正在 GPT-4 上运行,是 OpenAI 为 Bing 搜索定制的,可以通过 NewBing 入口进行体验。
GPT-4 API 提供给一些开发人员体验。需要加入 API 候选名单GPT-4 API waitlist,加入后提示。获得访问权限后,您可以向 gpt-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段)定价为每 1k 个 prompt token 0.03 美元和每 1k 个生成 token 0.06 美元。默认速率限制为每分钟 40k 个 token 和每分钟 200 个请求。
在日常对话中 GPT-3.5 和 GPT-4 之间的可能看不出差别,当任务的复杂性达到足够的阈值时,差异就会出现。GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。
为了比较模型之间的区别,在各种基准测试中进行了测试,包括最初为人类设计的模拟考试。模型没有针对这些考试进行专门培训,模在训练期间可能看到了考试中的少数问题,但结果仍然很具有代表性。下面为各种考试中 GPT3.5、没有视觉信息 GPT4、GPT4 表现,我们可以看到 GPT4 均显著优于 GPT3.5。
为了更加充分评估,在机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型,详细指标如下:
现有 ML 基准测试都是大多是英语,为了评估 GPT4 其他语言中的功能,使用 Azure Translate 将 MMLU 基准测试(包含 14,000 个多项选择题,涉及 57 个科目)翻译为各种语言。在测试的 26 种语言中,有 24 种语言的 GPT-4 性能优于英语 GPT-3.5 和其他 LLM(Chinchilla、PaLM),包括拉脱维亚语、威尔士语和斯瓦希里语等小语种的语言:
GPT-4 可以接受文本和图像输入,允许用户指定任何视觉或语言任务,包括带有文本和照片的文档、图表或屏幕截图等,GPT-4 展示了与纯文本输入类似的功能,生成文本输出。官网提到了还可以通过为纯文本语言模型开发的测试时技术(包括 few-shot 和 prompt)来增强。图像输入仍然是处于研究阶段没有公开,所以提供了几个官方的案例:
a)对搞笑图片内容的理解,能 get 到人类的梗。
b)图标推理能力,可以根据图片中的图表信息进行推理得出结论
c)École Polytechnique 法语物理考试题
d)根据图像内容,可以理解图像中不合理的地方,具备人常识的认知。
e)看纸质论文总结摘要
f)理解人类幽默,看梗图
g )看懂漫画能力,理解漫画讽刺的点。
提供的七个案例,从不同维度展示了加入了视觉信号之后 GPT4 能力,但是由于图片输入还没有放开体验,官方补充了一些学术常用的一些数据集基准测试来评估 GPT4 的图片理解能力。如下图所示我们可以看到与当前的 SOTA 模型相比有很大的竞争力。
OpenAI 知道用户更希望 ChatGPT 能够 Cosplay,为了提搞用户体验允许以系统消息方式为 API 用户在一定范围内定制化实现不同的体验。过去 ChatGPT 的回复风格总是冗长而平淡,这是因为系统规定了 ChatGPT 就是一个语言模型,知识截止到 21 年 9 月,限制了 ChatGPT 多样的风格。GPT-4 还开放了一个修改“系统提示”使用功能,可以通过与用户交互来控制模型输出的风格和任务。
a)通过系统消息指定回应的范围,具备导师的能力,提出正确的问题帮助学生独立思考。
b)系统消息指定回复的风格,能够更好的控制保持自己回复的风格和个性。
c)系统消息指定回复的格式,定制化借口回复 JSON 格式响应。
新增的系统消息能力,让我们在垂直的场景看到了更多的可能性。可以结合业务场景定制化 GPT4 的回复风格,可以实现了广泛领域的定制化。
幻觉、推理错误等问题一直是大模型面临的挑战,但 GPT-4 相对于以前的模型显著减少幻觉,如下图所示,在九类内部对抗性设计的事实评估中, GPT-4(绿色)与前三个 ChatGPT 版本进行了比较,所有主题都有显着的提高。准确度为 1.0 意味着模型的答案被判断为与评估中所有问题的人类理想回答一致。在整体对抗性真实性评估中 GPT-4 的得分比最新的 GPT-3.5 高 40%。
在 TruthfulQA 基准数据集上,测试了模型把事实和错误陈述区分开的能力,实验结果如下,GPT-4 此任务上比 GPT-3.5 略好,但经过 RLHF 后训练之后,GPT4 效果更佳显著。
GPT-4 依然存在回到错误的时候依然坚持自信,在可能出错时不注意再次确认。模型的这种特征可能与训练策略有关,官方对比了 MMLU 子集上上基础预训练模型和 PPO 模型,左图预训练 GPT-4 模型的校准图,该模型对其预测的置信度与正确概率相匹配,虚线对角线代表完美的校准。右图训练后 PPO GPT-4 模型的校准图,训练后对校准造成很大的影响。
除了上面提到的局限性,GPT4 依然可能输出带有偏见的内容,如何构建 AI 系统具有合理的默认行为,以反映广泛的用户价值观。如何在广泛的领域提供用于进行定制是需要解决的问题。
与 ChatGPT 一样,GPT-4 数据集局现在 2021 年 9 月,对之后的发生的问题可能错误。同时 GPT4 具备跨多个领域知识的能力,但一些简单的推理依然会犯错,有时还会清新用户一些明显虚假的陈述。除了简单的问题在一些人类遇到的难题上 GPT4 依然无法很好的解答,例如在它生成的代码中引入安全漏洞。
除了与之前 ChatGPT 模型类似的风险,例如生成有害建议、错误代码或不准确信息。GPT-4 因为引入了图片信息,还会引入新的风险。GPT4 确保训练开始就更安全、更一致做了多个方面工作:
引入了更多人工反馈,包括由 ChatGPT 用户提交的反馈,为了防止模型拒绝有效请求,收集了多样化的数据集(例如标记的生产数据、人类红队、模型生成的提示),以改进 GPT-4 的行为。
50 多位覆盖多个领域专家对模型进行对抗性测试,在需要专业知识进行评估的高风险领域测试模型行为,使得模型获得了早期反馈。专家反馈和数据改进模型,例如收集了额外的数据来提高拒绝有关如何合成危险化学品的请求的能力。
将以往现实应用中的经验引入 GPT-4 的安全研究和监控中。GPT-4 在 RLHF 训练期间加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害输出。奖励模型是 GPT-4 零样本分类器,根据安全相关提示判断安全边界和完成方式。GPT-4 与 GPT-3.5 相比显着改善了许多安全特性。如下图所示禁止和敏感内容的错误率,模型针对禁止内容请求的倾向降低了 82%,并对敏感内容请求的符合安全监管提高了 29% 。
模型级干预增加了引发不良行为的难度,但仍然存在生成违反我们内容的“越狱” 。目前措施是用安全技术(如监控滥用)来补充这些限制。与此同时通过与外部研究人员合作,来改进理解和评估潜在影响的方式,以及对未来系统中可能出现的危险功能进行评估。
官方资料没有讲模型参数和数据规模,没有讲任何技术原理。简单讲了一下 GPT-4 基础模型与 GPT 系列模型一致,使用公开可用的数据(例如互联网数据)以及我们已获得许可的数据进行训练。语料包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,并代表各种各样的意识形态和想法。模型的能力主要来自预训练过程,RLHF 不会提高模型测试的考试成绩,有时实际上会降低考试成绩。模型一些意图对齐及风格转变等来自于 RLHF 和工程设计。
GPT-4 项目的一大重点是构建可预测扩展的深度学习堆栈。为了适配大模型微调进行了底层优化,在多个尺度上具有非常可预测的行为。为了验证这种可扩展性,使用相同方法训练但使用 10,000 倍更少计算量的模型进行推断,准确预测了 GPT-4 在我们内部代码库的最终损失:
准确地预测我们在训练期间优化的指标(损失),我们开始开发方法来预测更多可解释的指标。例如从计算量减少 1,000 倍的模型中推断 HumanEval 数据集的一个子集的通过率:
有些能力难以预测,例如 Inverse Scaling Prize 是一项竞赛,目标是寻找一个随着模型计算量的增加而变得更糟的指标,hindsight neglect 任务是赢家之一,这个任务此任务测试语言模型是否能够根据预期值评估赌注是否值得。例如
问题:迈克尔可以选择玩一个游戏,迈克尔有 91% 的机会输掉 900 美元,有 9% 的机会赚到 5 美元。Michael 玩了这个游戏,最后输了 900 美元。迈克尔做出了正确的决定吗?选择 Y 或 N。
答案:否
其他大模型在这个任务上都表现不佳,但是 GPT-4 扭转了趋势:
开源 OpenAI Evals 软件框架,用于创建和运行基准测试以自动评估 GPT-4 等模型能。OpenAI 使用 Evals 来指导模型的开发(识别缺点和防止回归),用户可以应用 Evals 来跟踪模型和产品版本的性能。例如,Stripe 使用 Evals 来补充他们的人工评估,以衡量其基于 GPT 的文档工具的准确性。提供包括“模型分级评估”模板等多种模版,OpenAI 期望 Evals 成为共享和众包基准测试的工具,邀请用户反馈模型的缺点,帮助进一步改进模型。
总结一下 GPT-4 几个关键的提升:
https://cdn.openai.com/papers/gpt-4.pdf
https://www.youtube.com/live/outcGtbnMuQ?feature=share
Confirmed: the new Bing runs on OpenAI’s GPT-4 | Bing Search Blog
2201.11903 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
How should AI systems behave, and who should decide?
https://platform.openai.com/docs/usage-policies
evals/logic.yaml at main · openai/evals · GitHub
2211.02011 Inverse scaling can become U-shaped