
谷歌发布实时语音互译模型 Gemini 3.5 Live Translate:可识别 70 余种语言,谷歌翻译 App 就能用
一句话看懂:北京时间6月9日晚,谷歌正式推出实时语音互译音频模型 Gemini 3.5 Live Translate,支持70多种语言并保留说话者语调。该模型已集成至谷歌翻译 App,普通用户无需额外硬件即可使用,开发者也可通过 API 调用。
事件核心:发生了什么
谷歌此次发布的 Gemini 3.5 Live Translate 并非传统“说完再译”模式,而是一个能连续生成语音的流式模型。它在实时翻译中自动识别语言,在等待上下文以提升准确度与即时输出之间动态平衡,最终做到只比说话者慢几秒,且翻译语音能保留原声的语调、语速和音高。模型已通过 Android/iOS 版谷歌翻译向全球用户推送,用户连接任意耳机即可在70多种语言间获得流畅翻译体验。此外,Android 版新增的“聆听模式”允许用户像接电话一样将手机贴到耳边收听翻译,避免外放尴尬。开发者可通过 Gemini Live API 和 Google AI Studio 使用公开预览版,企业客户本月起可在 Google Meet 中试用私有版。
为什么重要
此模型标志着实时语音翻译从“回合制”进入“流式同步”阶段。传统系统因等待完整语句而存在数秒延迟,Gemini 3.5 Live Translate 通过音频流连续处理,大幅降低了跨语言对话中的停顿感。对于谷歌而言,这不仅是翻译产品的升级,更是将多模态大模型落地到高频消费场景的关键一步——谷歌翻译与 Google Meet 两大产品直接获得底层 AI 能力增强。相比其他竞品,谷歌利用自身庞大的翻译数据积累和端侧部署经验,让实时翻译的可用性更贴近真实对话场景。
对用户/开发者/创作者的影响
对普通用户而言,升级后的谷歌翻译 App 在实时对话场景中体验更自然,尤其适合出国旅行、跨国会议或与外语亲友沟通。Android 用户的“聆听模式”让通话翻译场景更加私密。对开发者来说,Gemini 3.5 Live Translate 的公开 API 降低了接入高质量实时口译的门槛,可应用于多语言客服系统、直播字幕、在线教育课程和广播等场景。创作者(如播客、直播主播)可以借助该 API 为内容实时生成多语言版本,无需后期配音。企业客户在 Google Meet 中获得的私有预览版,则能直接用于跨国团队的同步口译。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
首先,模型性能在嘈杂环境下的实际表现仍需用户实测验证——谷歌强调的抗噪能力是否足够应对机场、咖啡馆等场景,将决定口碑。其次,API 的定价策略尚未公开,开发者需关注成本是否适合规模化商用。最后,竞品(如 OpenAI 的语音模式、微软的实时翻译方案)是否会快速跟进类似流式架构,可能影响未来一年实时翻译市场的竞争格局。
来源:Readhub · AI


![[奇思妙想] 本地部署 AI 工作空间的新选择: Odysseus AI 上手体验](https://www.chat-gpts.plus/wp-content/uploads/2026/06/ai_cover_3-381-768x403.jpg)