
告别“翻译腔”:Gemini 3.5 实时语音翻译模型正式发布
一句话看懂:Google 正式推出 Gemini 3.5 Live Translate 语音翻译模型,能实现接近同声传译的实时语音转语音翻译,并还原语调、节奏等情感细节,现已集成到 Google AI Studio、Google Translate 和 Google Meet 中。
事件核心:发生了什么
Google 于 6 月 10 日发布了新一代音频模型 Gemini 3.5 Live Translate,核心目标是提升语音翻译的“自然度”。传统翻译工具通常采用“轮流对话”模式,存在明显延迟;Gemini 3.5 则在“等待更多上下文以提高准确性”和“实时输出以保持同步”之间做了平衡,将沟通延迟压缩至数秒内。
模型支持超过 70 种语言的自动识别与互译,无需用户手动选择语言对。即使在嘈杂或复杂的声学环境中,模型也能保持稳定输出。此外,Google 已开放 Gemini Live API,供开发者将语音翻译能力嵌入多语言通话、在线教育和直播解说等场景。东南亚出行平台 Grab 率先试用,该模型在处理每月数百万笔司机与乘客的实时通话中表现良好。
在 Google Meet 中,该模型将支持的语言对从有限数量扩展至超过 2000 个,不再局限于“以英语为中心”。Google Translate 应用还新增了“扬声器聆听模式”,用户在不方便佩戴耳机时,可通过手机扬声器私密接收翻译内容。
为什么重要
Gemini 3.5 Live Translate 的发布标志着语音翻译从“逐句交替”向“实时同步”迈出关键一步。它不仅降低了沟通延迟,更通过还原语调、节奏和音高,提升了跨语言交流的情感自然度。从行业角度看,Google 将该模型集成到核心产品线并开放 API,将加速多语言语音交互在企业协作、出行、教育和客服等场景的落地。同时,Google 为所有 Gemini 模型生成的音频内容加入了 SynthID 数字水印,用于识别 AI 生成内容,这为后续合规部署奠定了基础。
对用户/开发者/创作者的影响
普通用户:Google Translate 和 Google Meet 用户可直接受益,跨国通话或会议不再需要等待另一方说完后再翻译,体验更接近同声传译。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
开发者:通过 Gemini Live API,开发者可以快速在自有应用中实现实时语音翻译功能,特别是在多语言客服、远程教育和直播互动等场景,降低开发成本。
企业:支持超过 2000 个语言对,使得非英语语言在会议协作中的权重提升,适合跨国团队和多语言客户服务场景。
值得关注的后续
1. 产品落地节奏:目前官方尚未公布 Gemini 3.5 Live Translate 向所有用户开放的准确时间表,以及是否收费或有 API 调用限制。2. 竞品跟进:微软、Meta 等厂商目前均未推出类似实时语音翻译模型,若 Google 率先完成大规模部署,可能改变多语言语音交互市场的竞争格局。3. 监管与合规:SynthID 水印的部署能否满足全球不同地区的深度伪造和 AI 内容监管要求,将影响其在国际市场的推广。
来源:AIbase


