OpenAI 发布新旗舰模型 GPT-4o，实时处理音频、视觉和文本

OpenAI 在昨天发布了新旗舰模型 GPT-4o(“o” for “omni”)，它可以同时处理文本、音频、视频，让你与 AI 的交流变得和人一样，你可以和它面对面视频，它会在很短的时间内做出响应。那个电影里的贾维斯，大概就这来了。@Appinn

主要特点

GPT-4o 能接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合作为输出。

它可以在短至 232 毫秒、平均 320 毫秒的时间内对音频输入做出响应，这类似于对话中的人类响应时间。

在 GPT-4o 之前，您可以使用语音模式与 ChatGPT 对话，平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)

以前为了实现这一目标，语音模式是由三个独立模型组成的管道：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。

而 GPT-4o 跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。

它在英语和代码文本上的性能与 GPT-4 Turbo 相当，在非英语语言文本上的性能也有显著提高，同时在应用程序接口（API）上的速度更快，价格便宜 50%。

与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

中文字幕：

GPT-4o 的文本和图像（无视频）功能今天开始在 ChatGPT 中推出。Plus 付费用户比免费版多 5 倍的消息限制，免费版本可用 GPT-4o。

未来几周将在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版。

开发人员（API 用户）现在可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比，GPT-4o 速度提高 2 倍，价格降低一半，速率限制提高 5 倍。

未来几周内在 API 中向一小群值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。

原文：https://www.appinn.com/hello-gpt-4o-openai/

另外，目前青小蛙还未看到 GPT-4o 权限 🙈

更新个实时翻译的演示：