腾讯会议「AI 同传」功能上线:可模仿用户音色、时延低于 3 秒

腾讯会议「AI 同传」功能上线:可模仿用户音色、时延低于 3 秒

腾讯会议「AI 同传」功能上线:可模仿用户音色、时延低于 3 秒

一句话看懂:腾讯会议在2026年5月21日正式上线了「AI 同传」功能,能够在会中提供低于3秒的实时语音翻译,并支持模仿发言者原声音色,让跨语言对话几乎无感。此举将AI同传从高端会议室的专属服务,变成每个参会者可独立开启的通用能力。

事件核心:发生了什么

据IT之家报道,腾讯会议今日宣布推出「AI 同传」功能。该功能的核心特点是:时延低于3秒,实现发言与翻译几乎同步;支持模仿用户音色,在收听者端听起来就像用户本人正在用流利的英文说话。与以往需要外接设备或插件的方案不同,腾讯会议内的每位参会者都可以独立开启属于自己的AI同传,即“你听你想听的语言,他听他想听的语言”。

功能设置上,用户可调节同传与原声音量,在重要会议中保留原声以便核验关键信息,在日常沟通中则可直接关闭原声。该功能与腾讯会议已有的文字转写、会中字幕能力已完整打通,实现“可听、可译、可见、可记”四维同步。

为什么重要

首先,这标志着AI实时语音翻译从“工具”向“体验”的跃迁。过去,翻译类AI产品主要解决“翻译准不准”的问题,而腾讯会议加入“模仿用户音色”这一维度,实质上是在解决“像不像真人说话”的问题,大幅降低了听者的认知负担,使跨语言沟通更流畅自然。

其次,它将AI同传从高端会议室的“专用服务”降维为“通用能力”。以往,企业级同传依赖硬件设备和专人操作,成本高、门槛高。腾讯会议将此功能置于SaaS产品内并做到“每人独立开启”,意味着企业无需额外采购,就能让每位参与者获得同传服务。这对本土会议软件的出海竞争以及跨国协作的日常化,均具有实际意义。

最后,此举也展示了大模型在实时交互场景的工程化落地能力。实现低于3秒的端到端语音识别、翻译、语音合成(TTS)并保持原声特征,背后依赖于先进的服务器端推理架构与低延迟传输协议,反映出腾讯在AI基础设施上的积累。

对用户/开发者/创作者的影响

对普通用户(尤其是跨语言工作者):最直接的变化是,无论是参加国际项目会议、海外客户沟通,还是与讲不同语言的同事协作,都将拥有几乎无感知的实时翻译体验,且听者听到的是发言者本人的声音,而非机械的AI音色。这极大地降低了跨语言会议的“翻译疲劳”,使沟通节奏更接近母语对话。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对企业采购与IT管理员:无需额外采购同传设备或第三方服务,即可在腾讯会议中启用此能力。对于国际化业务团队而言,这是一个可快速落地、成本可控的解决方案。但需注意,该功能可能涉及数据出境与会话语音处理,企业在启用前应评估数据隐私合规要求。

对开发者与AI应用从业者:腾讯会议通过API和平滑的功能集成,展示了将大语言模型能力融入现有协作产品的一种范式。如果未来腾讯开放相关TTS(模仿用户音色)或同传服务API,可能催生出更多需要实时低延迟、高表现力的跨语言应用场景,如在线教育、远程医疗、虚拟会议等。

值得关注的后续

  • 音色模仿的准确度与安全性:用户能否自定义开启/关闭该功能?仿声音频是否会被恶意利用(如冒充身份)?目前未提及认证或水印机制,这部分安全设计值得观察。
  • 语言支持与付费模式:首发是否只支持中文到英文?未来是否扩展到更多语种?该功能是否包含在现有免费版/专业版/企业版套餐内,或是独立收费?目前公开信息尚未披露。
  • 竞品跟进:钉钉、飞书等国内主流会议软件是否会快速复制类似功能?未来跨语言实时同传将成为会议软件的标配能力,市场格局可能因此产生新变量。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 3271

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注