谷歌发布实时语音互译模型 Gemini 3.5 Live Translate：可识别 70 余种语言，谷歌翻译 App 就能用

一句话看懂：北京时间6月9日晚，谷歌正式推出实时语音互译音频模型 Gemini 3.5 Live Translate，支持70多种语言并保留说话者语调。该模型已集成至谷歌翻译 App，普通用户无需额外硬件即可使用，开发者也可通过 API 调用。

事件核心：发生了什么

谷歌此次发布的 Gemini 3.5 Live Translate 并非传统“说完再译”模式，而是一个能连续生成语音的流式模型。它在实时翻译中自动识别语言，在等待上下文以提升准确度与即时输出之间动态平衡，最终做到只比说话者慢几秒，且翻译语音能保留原声的语调、语速和音高。模型已通过 Android/iOS 版谷歌翻译向全球用户推送，用户连接任意耳机即可在70多种语言间获得流畅翻译体验。此外，Android 版新增的“聆听模式”允许用户像接电话一样将手机贴到耳边收听翻译，避免外放尴尬。开发者可通过 Gemini Live API 和 Google AI Studio 使用公开预览版，企业客户本月起可在 Google Meet 中试用私有版。

为什么重要

此模型标志着实时语音翻译从“回合制”进入“流式同步”阶段。传统系统因等待完整语句而存在数秒延迟，Gemini 3.5 Live Translate 通过音频流连续处理，大幅降低了跨语言对话中的停顿感。对于谷歌而言，这不仅是翻译产品的升级，更是将多模态大模型落地到高频消费场景的关键一步——谷歌翻译与 Google Meet 两大产品直接获得底层 AI 能力增强。相比其他竞品，谷歌利用自身庞大的翻译数据积累和端侧部署经验，让实时翻译的可用性更贴近真实对话场景。

对用户/开发者/创作者的影响

对普通用户而言，升级后的谷歌翻译 App 在实时对话场景中体验更自然，尤其适合出国旅行、跨国会议或与外语亲友沟通。Android 用户的“聆听模式”让通话翻译场景更加私密。对开发者来说，Gemini 3.5 Live Translate 的公开 API 降低了接入高质量实时口译的门槛，可应用于多语言客服系统、直播字幕、在线教育课程和广播等场景。创作者（如播客、直播主播）可以借助该 API 为内容实时生成多语言版本，无需后期配音。企业客户在 Google Meet 中获得的私有预览版，则能直接用于跨国团队的同步口译。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

首先，模型性能在嘈杂环境下的实际表现仍需用户实测验证——谷歌强调的抗噪能力是否足够应对机场、咖啡馆等场景，将决定口碑。其次，API 的定价策略尚未公开，开发者需关注成本是否适合规模化商用。最后，竞品（如 OpenAI 的语音模式、微软的实时翻译方案）是否会快速跟进类似流式架构，可能影响未来一年实时翻译市场的竞争格局。

来源：Readhub · AI

谷歌发布实时语音互译模型 Gemini 3.5 Live Translate：可识别 70 余种语言，谷歌翻译 App 就能用