谷歌正式推出Gemini 1.5 Pro 能够理解音频支持系统指令/JSON模式

两个月前谷歌在 Google Ai Studio 中提供了 Gemini 下一代版本 Gemini 1.5 Pro 供部分开发者测试，该模型具有 1M 上下文窗口并且具有原生的音频理解能力。

谷歌今天宣布 Gemini 1.5 Pro 模型在全球 180 多个国家或地区推出，正式上线后该模型还推出了系统指令和 JSON 等新功能，让开发者可以更好地控制模型的输出。

此次谷歌还推出了下一代文本嵌入模型，其性能由于同类模型，开发者可以通过 Google Ai Studio 创建和访问 API 密钥然后调用该模型进行构建。

音频和视频模式解锁新用例：

谷歌扩展了 Gemini 1.5 Pro 的输入模式，包括 Gemini API 和 Google Ai Studio 中的音频理解，同时该模型还能够对上传的视频图像 (帧) 和音频 (语音) 进行推理，谷歌很快会为此添加 API 支持。

新增的系统指令功能：

使用系统指令可以指导模型的响应，现在在 Google Ai Studio 和 Gemini API 中提供，开发者可以定义角色、格式、目标和规则，针对特定用例对模型进行引导。

JSON 模式：

只是模型仅输出为 JSON 对象，此模式可以从文本或图像中提取结构化数据，开发者可以使用 cURL，后续将支持 Python SDK。

函数调用的改进：

开发者现在可以选择模式来限制模型的输出，从而提高可靠性。选择文本、函数调用或仅函数本身等。

性能改进的新嵌入式模型：

从今天起开发者可以通过 Gemini API 访问下一代文本嵌入模型 text-embedding-004/text-embedding-preview-0409。

谷歌称其在 MTEB 基准测试中实现了更强的检索新年，并且由于具有可对比纬度的现有模型。