告别“翻译腔”：Gemini 3.5 实时语音翻译模型正式发布

一句话看懂：Google 正式推出 Gemini 3.5 Live Translate 语音翻译模型，能实现接近同声传译的实时语音转语音翻译，并还原语调、节奏等情感细节，现已集成到 Google AI Studio、Google Translate 和 Google Meet 中。

事件核心：发生了什么

Google 于 6 月 10 日发布了新一代音频模型 Gemini 3.5 Live Translate，核心目标是提升语音翻译的“自然度”。传统翻译工具通常采用“轮流对话”模式，存在明显延迟；Gemini 3.5 则在“等待更多上下文以提高准确性”和“实时输出以保持同步”之间做了平衡，将沟通延迟压缩至数秒内。

模型支持超过 70 种语言的自动识别与互译，无需用户手动选择语言对。即使在嘈杂或复杂的声学环境中，模型也能保持稳定输出。此外，Google 已开放 Gemini Live API，供开发者将语音翻译能力嵌入多语言通话、在线教育和直播解说等场景。东南亚出行平台 Grab 率先试用，该模型在处理每月数百万笔司机与乘客的实时通话中表现良好。

在 Google Meet 中，该模型将支持的语言对从有限数量扩展至超过 2000 个，不再局限于“以英语为中心”。Google Translate 应用还新增了“扬声器聆听模式”，用户在不方便佩戴耳机时，可通过手机扬声器私密接收翻译内容。

为什么重要

Gemini 3.5 Live Translate 的发布标志着语音翻译从“逐句交替”向“实时同步”迈出关键一步。它不仅降低了沟通延迟，更通过还原语调、节奏和音高，提升了跨语言交流的情感自然度。从行业角度看，Google 将该模型集成到核心产品线并开放 API，将加速多语言语音交互在企业协作、出行、教育和客服等场景的落地。同时，Google 为所有 Gemini 模型生成的音频内容加入了 SynthID 数字水印，用于识别 AI 生成内容，这为后续合规部署奠定了基础。

对用户/开发者/创作者的影响

普通用户：Google Translate 和 Google Meet 用户可直接受益，跨国通话或会议不再需要等待另一方说完后再翻译，体验更接近同声传译。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

开发者：通过 Gemini Live API，开发者可以快速在自有应用中实现实时语音翻译功能，特别是在多语言客服、远程教育和直播互动等场景，降低开发成本。

企业：支持超过 2000 个语言对，使得非英语语言在会议协作中的权重提升，适合跨国团队和多语言客户服务场景。

值得关注的后续

1. 产品落地节奏：目前官方尚未公布 Gemini 3.5 Live Translate 向所有用户开放的准确时间表，以及是否收费或有 API 调用限制。2. 竞品跟进：微软、Meta 等厂商目前均未推出类似实时语音翻译模型，若 Google 率先完成大规模部署，可能改变多语言语音交互市场的竞争格局。3. 监管与合规：SynthID 水印的部署能否满足全球不同地区的深度伪造和 AI 内容监管要求，将影响其在国际市场的推广。

来源：AIbase

告别“翻译腔”：Gemini 3.5 实时语音翻译模型正式发布