
Inworld 发布实时 TTS-2:让语音 AI 的情感表达更“自然”
语音 AI 领域迎来一次重要升级。今日,Inworld 在 Product Hunt 上正式发布了其新一代实时文本转语音模型 Realtime TTS-2。这一发布之所以值得关注,是因为它试图解决当前语音 AI 中一个普遍存在的痛点:AI 说话虽“清楚”,但缺乏自然的情绪与节奏。Inworld TTS-2 通过引入自然语言语音指令和文本描述生成声音等功能,让开发者能够更精准地控制 AI 的“语气”,而不仅仅是“内容”。
从“听得清”到“听得真”:六大关键升级
Inworld 在语音 AI 基础设施领域并非新面孔。其前代产品 TTS 1.5 在第三方评测平台 Artificial Analysis 上取得了 #1 的排名,并在数千名真实用户的盲测中被评为最佳。此次发布的 TTS-2 在此基础上进行了六项重大改进。
最引人注目的功能是 自然语言语音方向。开发者现在可以直接用文字指令,例如“用更快的语速和兴奋的语气介绍产品”,来控制 AI 的语调、情感、速度和音高,无需进行复杂的参数调整。同时,新增的基于文本的语音设计功能,允许用户仅通过描述“一位温暖的、略带沙哑的中年男声”来直接生成对应的声音。此外,TTS-2 还支持 跨 100 多种语言的合成,并能在转换中保持说话人的身份特征。针对品牌名、生僻词等难点,新模型加入了 IPA 音标控制 以提升准确性,并优化了字母数字的发音逻辑。
行业影响:语音 Agent 基础层的竞争加剧
Inworld 的定位是“为生产级语音 AI 构建基础设施”。它将语音转文本、LLM 路由和顶级的文本转语音整合在单一 API 上,这种“全栈”模式意味着上下文信息可以在不同层级间无缝流动。对于正在构建语音 Agent、AI 伴侣或对话式应用的开发者而言,这意味着他们可以显著降低集成门槛,并获得更连贯的交互体验。
此次 TTS-2 的发布,表明 Inworld 正在试图拉开与竞品在“情感表现力”上的差距。在语音 AI 市场,技术和模型能力固然重要,但“听感”上的细微差别往往是决定用户留存的关键。通过提供精细的情感控制,Inworld 正在从单纯的技术提供者,向“有温度”的交互体验定义者迈进。
我的看法
Inworld TTS-2 的升级非常务实。它不是对架构的颠覆,而是精准地击中了现有语音模型中“表达生硬”这一软肋。尤其是自然语言语音方向和文本描述生成声音两个功能,极大地降低了非专业开发者的使用门槛。可以预见,随着这类工具的出现,我们将在更多社交、客服和娱乐场景中,听到更具“人性”的 AI 声音。Inworld 提供了一个免费体验入口,感兴趣的开发者可以立即在 inworld.ai/tts 上尝试。语音 AI 的“听感革命”,或许才刚刚开始。


