实时 TTS-2

Inworld 发布实时 TTS-2：让语音 AI 的情感表达更“自然”

语音 AI 领域迎来一次重要升级。今日，Inworld 在 Product Hunt 上正式发布了其新一代实时文本转语音模型 Realtime TTS-2。这一发布之所以值得关注，是因为它试图解决当前语音 AI 中一个普遍存在的痛点：AI 说话虽“清楚”，但缺乏自然的情绪与节奏。Inworld TTS-2 通过引入自然语言语音指令和文本描述生成声音等功能，让开发者能够更精准地控制 AI 的“语气”，而不仅仅是“内容”。

从“听得清”到“听得真”：六大关键升级

Inworld 在语音 AI 基础设施领域并非新面孔。其前代产品 TTS 1.5 在第三方评测平台 Artificial Analysis 上取得了 #1 的排名，并在数千名真实用户的盲测中被评为最佳。此次发布的 TTS-2 在此基础上进行了六项重大改进。

最引人注目的功能是 自然语言语音方向。开发者现在可以直接用文字指令，例如“用更快的语速和兴奋的语气介绍产品”，来控制 AI 的语调、情感、速度和音高，无需进行复杂的参数调整。同时，新增的基于文本的语音设计功能，允许用户仅通过描述“一位温暖的、略带沙哑的中年男声”来直接生成对应的声音。此外，TTS-2 还支持 跨 100 多种语言的合成，并能在转换中保持说话人的身份特征。针对品牌名、生僻词等难点，新模型加入了 IPA 音标控制 以提升准确性，并优化了字母数字的发音逻辑。

行业影响：语音 Agent 基础层的竞争加剧

Inworld 的定位是“为生产级语音 AI 构建基础设施”。它将语音转文本、LLM 路由和顶级的文本转语音整合在单一 API 上，这种“全栈”模式意味着上下文信息可以在不同层级间无缝流动。对于正在构建语音 Agent、AI 伴侣或对话式应用的开发者而言，这意味着他们可以显著降低集成门槛，并获得更连贯的交互体验。

此次 TTS-2 的发布，表明 Inworld 正在试图拉开与竞品在“情感表现力”上的差距。在语音 AI 市场，技术和模型能力固然重要，但“听感”上的细微差别往往是决定用户留存的关键。通过提供精细的情感控制，Inworld 正在从单纯的技术提供者，向“有温度”的交互体验定义者迈进。

我的看法

Inworld TTS-2 的升级非常务实。它不是对架构的颠覆，而是精准地击中了现有语音模型中“表达生硬”这一软肋。尤其是自然语言语音方向和文本描述生成声音两个功能，极大地降低了非专业开发者的使用门槛。可以预见，随着这类工具的出现，我们将在更多社交、客服和娱乐场景中，听到更具“人性”的 AI 声音。Inworld 提供了一个免费体验入口，感兴趣的开发者可以立即在 inworld.ai/tts 上尝试。语音 AI 的“听感革命”，或许才刚刚开始。