新一代实时语音大模型 StepAudio 2.5 Realtime 发布

一句话看懂：阶跃星辰于5月9日推出了新一代实时语音大模型 StepAudio 2.5 Realtime。该模型能够“真人级”地捕捉语气、语速等副语言信号，并根据用户情绪动态调整回应，标志着AI语音交互从“听懂”向“感知”迈出了关键一步。

事件核心：发生了什么

5月9日，阶跃星辰正式发布了新一代实时语音大模型 StepAudio 2.5 Realtime。该模型具备两项核心能力：一是深度感知能力，能精准捕捉用户的语气、语速和语调，据此动态调整回应策略；二是智商与情商双重进阶，既能理解复杂语义，也提供情感支持。此外，该模型通过API支持高度灵活的人设自定义，可定义性格、背景及语言风格，并基于超万级原生人设特征矩阵与RLHF对齐优化，确保角色演绎的稳定与可信。目前该模型已全量上线。

为什么重要

在实时语音交互领域，传统的语音模型往往只关注语义的准确性，而忽略了副语言信号（如语气、语速）在交流中的关键作用。StepAudio 2.5 Realtime 的突破在于将“感知”纳入了实时交互的反馈闭环，这使得AI对话的拟人化程度大幅提升。对于行业而言，这不仅仅是技术路线的一次细化，更可能改写教育、办公等注重沟通体验的赛道的产品逻辑。阶跃星辰在情感计算和角色演绎上的投入，表明其正在尝试从“通用模型”向“高情商交互助手”的差异化竞争路径。

对用户/开发者/创作者的影响

对于普通用户，这意味着未来的语音助手将不再只是生硬的问答机器，而是能感知你心情、调整回应风格的“智能伙伴”。对于开发者，StepAudio 2.5 Realtime 提供的人设自定义API是一个关键能力，允许开发者基于超万级人设特征矩阵和RLHF对齐进行角色定制，从而快速开发出具备稳定人格属性的虚拟角色、教育陪练或客服助手。对于内容创作者，该模型可以更自然地进行剧本对白、有声书录制和互动叙事，降低情感演绎的门槛。

值得关注的后续

目前公开信息显示，值得关注以下几个方向：一是该模型在实际场景中的响应延迟和稳定性，是否能在实时通话中维持感知能力。二是开发者生态的适配速度，尤其是API的定价策略与易用性，将直接影响其商业化起步。三是竞品（如OpenAI的实时语音API或国内其他多模态厂商）是否会快速跟进“感知型交互”这一技术方向，引发新一轮模型迭代赛。

来源：Readhub · AI