阶跃星辰推出 StepAudio 2.5 Realtime，实时语音 AI 再升级！

一句话看懂：阶跃星辰（StepZen）于近日正式发布新一代实时语音大模型 StepAudio 2.5 Realtime，该模型在副语言感知、角色定制和对话能力上做了系统性升级，开发者可通过官网 API 接入使用。此举意味着实时语音 AI 在情感理解和个性化交互上迈出了关键一步。

事件核心：发生了什么

阶跃星辰官方宣布，StepAudio 2.5 Realtime 已全面上线，开发者可通过 StepZen 开放平台调用 API。模型的核心突破在于对“副语言信息的处理能力”——即能识别语气、语速、停顿、叹气、笑声等非语言表达细节，从而感知用户情绪状态和潜在意图。例如，当用户语调低沉时，模型可判断其疲劳状态并调整回应策略。此外，该模型支持开发者通过 API 自定义 AI 角色的性格、背景经历和语言习惯。据官方介绍，模型基于超过 1 万个高质量原生角色画像，通过算法生成了百万级角色特征矩阵，并经过大量真实对话训练和强化学习优化，以维持极端场景下的角色一致性。模型同时内置了 5 种预设角色配置供用户体验。在官方最新评测中，该模型在五项测试维度中表现突出，其中用户体验得分达到 80.41，显著高于 GPT-Realtime-1.5 和 Gemini Live 等同类产品。

为什么重要

StepAudio 2.5 Realtime 的推出，将实时语音 AI 从单纯的语音识别与合成，推向了具备情感理解和个性化角色塑造的新阶段。副语言感知能力解决了此前语音交互“只能识别文字、无法理解情绪”的核心痛点，这对于提升对话自然度、降低用户使用门槛至关重要。同时，通过 API 开放角色定制能力，意味着企业客户可以基于同一模型快速构建差异化的语音助手、虚拟陪伴或面试模拟产品，有望加速实时语音 AI 在客服、教育、娱乐等场景的落地。从竞争格局看，该模型在用户体验评分上超越 OpenAI 和 Google 的同类产品，表明国内团队在实时语音大模型赛道已形成技术竞争力。

对用户/开发者/创作者的影响

对于普通用户而言，未来在使用搭载该模型的智能助手时，将获得更“拟人”的对话体验——AI 能听懂你的情绪并做出回应。对于开发者来说，StepAudio 2.5 Realtime 提供了灵活的 API 接口，允许按需调整 AI 角色的性格和背景，这降低了构建个性化语音应用的开发成本。具体来看，可应用于情感陪伴、角色扮演、虚拟面试、在线教育等领域。对于创作者或内容生产者，该模型可成为内容剧本的“声音演员”，通过定制角色参数快速生成不同情绪和风格的口播内容，提升创作效率。

值得关注的后续

首先，StepAudio 2.5 Realtime 的 API 定价和调用限制尚未公开，这将直接影响中小开发者能否低成本接入。其次，模型在中文场景下的副语言感知准确率与英文对比尚需实际评测数据支撑。最后，随着 OpenAI、Google 等巨头在实时语音领域的持续投入，竞品跟进和价格战将可能影响该模型的长期市场占有率。建议关注其开源计划以及对第三方平台的集成进度。

来源：AIbase

阶跃星辰推出 StepAudio 2.5 Realtime，实时语音 AI 再升级！