阶跃星辰发布StepAudio 2.5 Realtime:赋予大模型真人般的情感与智慧

阶跃星辰发布StepAudio 2.5 Realtime:赋予大模型真人般的情感与智慧

阶跃星辰发布StepAudio 2.5 Realtime:赋予大模型真人般的情感与智慧

一句话看懂:2025年5月8日,阶跃星辰(Jieque Star)正式推出实时语音大模型StepAudio 2.5 Realtime,核心突破在于让大模型在对话过程中具备“人级”的情感感知与个性定制能力,标志着国产大模型在语音交互从“听懂指令”跨越到“读懂情绪”的新阶段。

事件核心:发生了什么

5月8日,阶跃星辰官方宣布StepAudio 2.5 Realtime全面上线。该模型并非简单的语音识别升级,而是在底层架构上实现了两个关键跃升:一是深度感知能力——能实时捕捉用户语音中的语调、语速、停顿等细微变化,并据此推断用户情绪状态(如急躁、犹豫、兴奋);二是个性化人格定制——开发者和用户可根据场景需求,为AI设定具体的性格特质和语言风格(如专业职场助手、幽默聊伴等)。目前该模型已面向开发者和合作伙伴开放直接接入。

为什么重要

当前主流语音AI大多仍依赖“语音转文字→文本推理→文字转语音”的管道式处理,这种架构天然丢失了语气、节奏等情感信息,导致交互感受如同对讲机。StepAudio 2.5 Realtime的工作方式更像人类交流——在同一信道中同时处理语义和情感。这对行业有三层意义:第一,它验证了实时语音大模型在商用场景下的技术可行性;第二,个性化定制功能直接回应了To B市场对AI角色化(如客服、教育助教、游戏NPC)的刚性需求;第三,阶跃星辰作为国产大模型公司,与百度、科大讯飞等在语音赛道的技术路线形成差异化竞争——强化“情感计算”而非单纯堆砌参数。

对用户/开发者/创作者的影响

  • 对普通用户:使用搭载该模型的语音助手、智能客服时,将明显感觉到对话更“自然”,AI能根据用户语气调整回应方式(如用户烦躁时主动放慢语速、加解释),不再是机械式的一问一答。
  • 对开发者:获得了一套可以直接调用的实时语音API,且支持人格参数自定义。这意味着不再需要为每个场景开发独立的情绪识别模块,可显著降低情感交互类应用的开发成本。
  • 对内容创作者:在语音剧本、有声读物、互动游戏等场景中,可以快速生成具有“喜怒哀乐”人格的虚拟角色语音,这类此前需要专业配音且多次调教的表现方式,现在可通过AI一次性配置完成。

值得关注的后续

目前公开信息显示,StepAudio 2.5 Realtime已正式上线,但以下三点值得跟踪观察:

  1. 效果真实体验:官方演示效果与实际开放用户后的多场景测试(如嘈杂环境、非标准普通话)是否一致,尤其是情感识别的误判率。
  2. 竞品动态:字节跳动、百度、微软等公司的实时语音大模型产品是否会在未来3-6个月内发布类似功能,行业标准或技术路径可能因此明朗。
  3. 商用定价模式:当前未公开API调用价格,个性化定制是否另收费,这些将直接影响该模型从技术demo走向规模化商业落地的速度。

来源:AIbase

celebrityanime
celebrityanime
文章: 864

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注