阶跃星辰发布StepAudio 2.5 Realtime：赋予大模型真人般的情感与智慧

一句话看懂：2025年5月8日，阶跃星辰（Jieque Star）正式推出实时语音大模型StepAudio 2.5 Realtime，核心突破在于让大模型在对话过程中具备“人级”的情感感知与个性定制能力，标志着国产大模型在语音交互从“听懂指令”跨越到“读懂情绪”的新阶段。

事件核心：发生了什么

5月8日，阶跃星辰官方宣布StepAudio 2.5 Realtime全面上线。该模型并非简单的语音识别升级，而是在底层架构上实现了两个关键跃升：一是深度感知能力——能实时捕捉用户语音中的语调、语速、停顿等细微变化，并据此推断用户情绪状态（如急躁、犹豫、兴奋）；二是个性化人格定制——开发者和用户可根据场景需求，为AI设定具体的性格特质和语言风格（如专业职场助手、幽默聊伴等）。目前该模型已面向开发者和合作伙伴开放直接接入。

为什么重要

当前主流语音AI大多仍依赖“语音转文字→文本推理→文字转语音”的管道式处理，这种架构天然丢失了语气、节奏等情感信息，导致交互感受如同对讲机。StepAudio 2.5 Realtime的工作方式更像人类交流——在同一信道中同时处理语义和情感。这对行业有三层意义：第一，它验证了实时语音大模型在商用场景下的技术可行性；第二，个性化定制功能直接回应了To B市场对AI角色化（如客服、教育助教、游戏NPC）的刚性需求；第三，阶跃星辰作为国产大模型公司，与百度、科大讯飞等在语音赛道的技术路线形成差异化竞争——强化“情感计算”而非单纯堆砌参数。

对用户/开发者/创作者的影响

对普通用户：使用搭载该模型的语音助手、智能客服时，将明显感觉到对话更“自然”，AI能根据用户语气调整回应方式（如用户烦躁时主动放慢语速、加解释），不再是机械式的一问一答。
对开发者：获得了一套可以直接调用的实时语音API，且支持人格参数自定义。这意味着不再需要为每个场景开发独立的情绪识别模块，可显著降低情感交互类应用的开发成本。
对内容创作者：在语音剧本、有声读物、互动游戏等场景中，可以快速生成具有“喜怒哀乐”人格的虚拟角色语音，这类此前需要专业配音且多次调教的表现方式，现在可通过AI一次性配置完成。

值得关注的后续

目前公开信息显示，StepAudio 2.5 Realtime已正式上线，但以下三点值得跟踪观察：

效果真实体验：官方演示效果与实际开放用户后的多场景测试（如嘈杂环境、非标准普通话）是否一致，尤其是情感识别的误判率。
竞品动态：字节跳动、百度、微软等公司的实时语音大模型产品是否会在未来3-6个月内发布类似功能，行业标准或技术路径可能因此明朗。
商用定价模式：当前未公开API调用价格，个性化定制是否另收费，这些将直接影响该模型从技术demo走向规模化商业落地的速度。

来源：AIbase

阶跃星辰发布StepAudio 2.5 Realtime：赋予大模型真人般的情感与智慧