两个月前谷歌在 Google Ai Studio 中提供了 Gemini 下一代版本 Gemini 1.5 Pro 供部分开发者测试,该模型具有 1M 上下文窗口并且具有原生的音频理解能力。
谷歌今天宣布 Gemini 1.5 Pro 模型在全球 180 多个国家或地区推出,正式上线后该模型还推出了系统指令和 JSON 等新功能,让开发者可以更好地控制模型的输出。
此次谷歌还推出了下一代文本嵌入模型,其性能由于同类模型,开发者可以通过 Google Ai Studio 创建和访问 API 密钥然后调用该模型进行构建。
音频和视频模式解锁新用例:
谷歌扩展了 Gemini 1.5 Pro 的输入模式,包括 Gemini API 和 Google Ai Studio 中的音频理解,同时该模型还能够对上传的视频图像 (帧) 和音频 (语音) 进行推理,谷歌很快会为此添加 API 支持。
新增的系统指令功能:
使用系统指令可以指导模型的响应,现在在 Google Ai Studio 和 Gemini API 中提供,开发者可以定义角色、格式、目标和规则,针对特定用例对模型进行引导。
JSON 模式:
只是模型仅输出为 JSON 对象,此模式可以从文本或图像中提取结构化数据,开发者可以使用 cURL,后续将支持 Python SDK。
函数调用的改进:
开发者现在可以选择模式来限制模型的输出,从而提高可靠性。选择文本、函数调用或仅函数本身等。
性能改进的新嵌入式模型:
从今天起开发者可以通过 Gemini API 访问下一代文本嵌入模型 text-embedding-004/text-embedding-preview-0409。
谷歌称其在 MTEB 基准测试中实现了更强的检索新年,并且由于具有可对比纬度的现有模型。
有关以上内容可访问谷歌官方博客查看资源链接:https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
版权声明:感谢您的阅读,除非文中已注明来源网站名称或链接,否则均为蓝点网原创内容。转载时请务必注明:来源于蓝点网、标注作者及本文完整链接,谢谢理解。