
Google Gemini 3.5 Live Translate 公开预览,支持70+种语言
一句话看懂:Google 在2026年6月9日晚间通过 Gemini API 推出了 Gemini 3.5 Live Translate 公开预览,这是一款低延迟的语音到语音实时翻译模型,一次性覆盖70多种语言、2000组语言对,将实时翻译从“主要语言可用”推向“几乎所有语言对标配”。
事件核心:发生了什么
Google 官方开发者账号 @googledevs 于2026年6月9日宣布,Gemini 3.5 Live Translate 模型已进入公开预览阶段。开发者可以通过 Gemini API 直接接入,从而实现语音到语音的实时翻译。Google 强调该模型支持70种以上语言,覆盖了2000组不同的语言对,其中包含大量此前在实时语音翻译场景中很少被主流厂商支持的冷门小众语言对。此前,AI 资讯博主 Berry Xia 指出该发布在当日被 A 社 Fable 5 等其他消息“刷屏”,存在感较弱,但模型能力本身被形容为“将语言不通的天堑砸成碎片”。目前该能力已面向开发者开放,可用于实时对话、客服、直播、跨国会议等场景。
为什么重要
这次公开预览的行业意义在于两点:一是它打破了实时语音翻译长期局限于“主流语言对”的格局,将冷门小众语言对一次性纳入可用范围——这意味着开发者的应用不再需要单独为某个小语种训练或外挂翻译模块;二是 Google 将这类能力直接集成在大模型推理管线中,而不是独立的产品化模块,使得实时语音翻译成为 Gemini 模型家族的一个原生能力,降低了开发者的集成门槛。这使得实时翻译从“偶尔能用”向“随时随地标配”迈进了一步。对比来看,阿里通义千问等国内模型此前也在小语种翻译上有所布局,但 Google 这次以“2000语言对 + 低延迟语音对语音”的组合拳,直接拉高了行业在实时翻译场景上的覆盖标准。
对用户/开发者/创作者的影响
对普通用户而言,最直接的感受将是更多 app 内置的翻译功能不再只支持英语、西班牙语等热门语种;原本只能在文字翻译中见到的冷门语言对(例如非洲、南亚、东南亚等地的区域语言)将在实时对话中落地。对于开发者,这是 API 层面的即插即用能力:将 Gemini API 接入后即可获得低延迟语音翻译,免去了自研语言模型、语音识别与合成管道、以及多语言对齐的巨大工程投入。对于跨国业务、出海产品、远程协作工具、直播平台的 AI 功能开发者,这意味着一夜之间可以用少于此前10%的工作量,将产品推向任意语言市场。对于内容创作者,特别是在全球性直播或跨文化访谈场景中,实时翻译的可用性也将大幅提升。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
目前公开信息显示该模型尚处于公开预览阶段,关键的后续观察点包括:第一,预览阶段的 API 调用价格和正式上线后的定价模型是否公布,以及是否会对小语种调用产生额外成本;第二,现场演示的翻译质量(尤其是小众语言对)是否有公开评测数据,用户可否复现其宣称的低延迟表现;第三,阿里、微软、OpenAI 等竞争对手是否会在短期内发布类似的大规模语言对覆盖方案,从而在实时翻译赛道上形成新一轮竞争;第四,Qwen 模型等此前在小语种翻译上表现优异的国内模型是否会加快推出同类语音对译产品。


