谷歌发布实时语音互译模型 Gemini 3.5 Live Translate:可识别 70 余种语言,谷歌翻译 App 就能用

谷歌发布实时语音互译模型 Gemini 3.5 Live Translate:可识别 70 余种语言,谷歌翻译 App 就能用

谷歌发布实时语音互译模型 Gemini 3.5 Live Translate:可识别 70 余种语言,谷歌翻译 App 就能用

一句话看懂:北京时间6月9日晚,谷歌正式推出实时语音互译音频模型 Gemini 3.5 Live Translate,支持70多种语言并保留说话者语调。该模型已集成至谷歌翻译 App,普通用户无需额外硬件即可使用,开发者也可通过 API 调用。

事件核心:发生了什么

谷歌此次发布的 Gemini 3.5 Live Translate 并非传统“说完再译”模式,而是一个能连续生成语音的流式模型。它在实时翻译中自动识别语言,在等待上下文以提升准确度与即时输出之间动态平衡,最终做到只比说话者慢几秒,且翻译语音能保留原声的语调、语速和音高。模型已通过 Android/iOS 版谷歌翻译向全球用户推送,用户连接任意耳机即可在70多种语言间获得流畅翻译体验。此外,Android 版新增的“聆听模式”允许用户像接电话一样将手机贴到耳边收听翻译,避免外放尴尬。开发者可通过 Gemini Live API 和 Google AI Studio 使用公开预览版,企业客户本月起可在 Google Meet 中试用私有版。

为什么重要

此模型标志着实时语音翻译从“回合制”进入“流式同步”阶段。传统系统因等待完整语句而存在数秒延迟,Gemini 3.5 Live Translate 通过音频流连续处理,大幅降低了跨语言对话中的停顿感。对于谷歌而言,这不仅是翻译产品的升级,更是将多模态大模型落地到高频消费场景的关键一步——谷歌翻译与 Google Meet 两大产品直接获得底层 AI 能力增强。相比其他竞品,谷歌利用自身庞大的翻译数据积累和端侧部署经验,让实时翻译的可用性更贴近真实对话场景。

对用户/开发者/创作者的影响

对普通用户而言,升级后的谷歌翻译 App 在实时对话场景中体验更自然,尤其适合出国旅行、跨国会议或与外语亲友沟通。Android 用户的“聆听模式”让通话翻译场景更加私密。对开发者来说,Gemini 3.5 Live Translate 的公开 API 降低了接入高质量实时口译的门槛,可应用于多语言客服系统、直播字幕、在线教育课程和广播等场景。创作者(如播客、直播主播)可以借助该 API 为内容实时生成多语言版本,无需后期配音。企业客户在 Google Meet 中获得的私有预览版,则能直接用于跨国团队的同步口译。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

首先,模型性能在嘈杂环境下的实际表现仍需用户实测验证——谷歌强调的抗噪能力是否足够应对机场、咖啡馆等场景,将决定口碑。其次,API 的定价策略尚未公开,开发者需关注成本是否适合规模化商用。最后,竞品(如 OpenAI 的语音模式、微软的实时翻译方案)是否会快速跟进类似流式架构,可能影响未来一年实时翻译市场的竞争格局。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 6660

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注