#人工智能 谷歌发布 Gemini 3.5 实时语音翻译模型,该模型支持自动处理超过 70 种语言且自带抗噪能力,目前已经在谷歌翻译 iOS 和安卓版中提供。开发者则可以通过 Gemini Live API 和 Google AI Studio 进行调用,例如构建和部署语音翻译应用,或者集成模型处理复杂的实时媒体流,让开发者可以专注于用户体验。查看详情:https://ourl.co/113384
谷歌人工智能团队日前发布 Gemini 3.5 Live Translate 实时翻译模型,这是谷歌最新的实时语音翻译模型,该模型支持超过 70 种语言并可以生成流畅自然的翻译语音,翻译时还会保留说话者的语调、语速和音高,尽可能让对话者体验到非常自然的多语言实时语音翻译。
这个实时语音翻译模型还能持续生成语音,在等待上下文信息提升翻译质量和立即翻译之间保持平衡,实现流畅的音频输出避免尴尬的停顿,整个会话过程可以实现始终与说话者保持仅几秒钟的延迟,这可以大幅度提高日常对话、视频会议翻译的整体体验。
实时语音翻译模型支持以下产品:
- 谷歌翻译 iOS 版和安卓版立即上线 Gemini 3.5 实时语音翻译模型,用户可以在谷歌翻译里免费使用
- 开发者可以通过 Gemini Live API 和 Google AI Studio 调用该模型进行体验
- 从本月起谷歌视频会议软件 Google Meet 将面向企业用户推出私有预览版
Gemini 3.5 实时语音翻译模型的其他介绍:
Gemini 3.5 实时语音翻译模型可以在语音流传输过程中进行处理从而实现更加流畅的跨语言连接。该模型不需要手动配置即可自动处理多种不同的语言输入,同时模型自带强大的抗噪能力确保能够应对嘈杂和多变的环境。
开发者可以使用模型为多语言会议、课程、广播等提供实时口译服务,开可以基于 Gemini Live API 构建和部署语音翻译应用,或者集成模型处理复杂的实时媒体流,让开发者可以专注于用户体验。
怎么在谷歌翻译应用中使用:
即日起谷歌翻译在全球市场提供基于 Gemini 3.5 实时语音翻译模型驱动的实时语音翻译功能,要使用该功能用户需要佩戴耳机以免用户说话与扬声器输出的内容造成干扰。谷歌还为谷歌翻译安卓版提供聆听模式,让用户可以直接通过手机听筒收听翻译内容,只需要像平常通话那样将手机贴近耳朵,翻译后的音频会通过手机听筒输出,这样用户可以不佩戴耳机进行语音翻译。





