阶跃星辰副总裁俞刚确认出席AICon上海站，分享多模态生成与理解的架构演进

一句话看懂：阶跃星辰副总裁俞刚将在AICon上海站公开分享其多模态大模型（涵盖语音、图像、文本）的架构演进思路，包括Step系列模型的最新进展，为开发者与行业观察者提供理解多模态统一智能技术路径的窗口。

事件核心：发生了什么

2025年6月26日至27日，AICon全球人工智能开发与应用大会将在上海举办。阶跃星辰副总裁俞刚确认出席“世界模型与多模态智能突破”专题，并发表题为《走向统一智能：多模态生成与理解的架构演进》的演讲。俞刚将系统梳理多模态生成与理解的技术演进脉络，重点围绕语音与图像两大模态介绍其架构设计思路。具体内容包括：大语言模型（LLM）自2023年以来的发展变化、Step 3.5 flash模型介绍、文本与语音交互融合（Step-audio 2 & Step-audio 2.5）、文本+语音+视觉的多模态融合（Step-image 2 & Step-audio-editx），以及生成一体化的难点与实现路径。俞刚此前在腾讯担任研究总监四年，在旷视工作五年，研究方向涵盖生成式AI、目标检测、图像分割等计算机视觉领域。

为什么重要

多模态生成与理解正成为大模型从“语言智能”迈向“统一智能”的关键方向。当前，业界主流注意力集中在文生图、文生视频等特定赛道，但阶跃星辰的分享首次公开了其如何在同一架构内融合生成与理解任务——这直接关系到模型在Agent场景下的实际表现（如语音助手同时理解用户意图并生成视觉反馈）。俞刚介绍的Step系列模型覆盖了文本、语音、图像三大交互模态，这意味着阶跃星辰试图构建一条连贯的产品技术栈，而非单独优化某一种能力。这种架构规划对行业竞争格局的影响在于：它可能冲击现有以单一模态见长（例如仅擅长文本生成或图像生成）的模型公司，因为统一架构在工程成本与一致性体验（语音结合图像输出）上更具长期竞争力。AICon大会同时设有Agent工程化、安全可信治理、智算架构升级等14个专题论坛，表明该话题并非孤立技术讨论，而是与产业落地直接挂钩——多模态能力是Agent从演示环境走向真实生产的核心瓶颈之一。

对用户/开发者/创作者的影响

开发者与AI应用公司可重点关注俞刚分享的架构设计细节，尤其是“生成一体化”的实现路径。如果阶跃星辰选择将Step系列模型通过API开放，开发者可能获得低成本集成多模态交互能力（如语音+图像同时处理）的选项，这直接适用于客服机器人、教育辅助、创意设计等场景。内容创作者与营销团队需留意Step-image 2与Step-audio-editx等工具的产品化节奏——如果这些模型在效果上接近甚至超越开源竞品（如Stable Diffusion、Whisper），其内容生产流程（视频配音配图、人像编辑+语音合成）可能变得更高效。对于普通用户，若该架构能支撑端侧或云端一体化产品（如实时翻译+图像生成结合），将会显著改善现有助手类应用的交互体验。不过，目前公开信息未公布具体上线时间与商用许可细节，建议等待俞刚的演讲材料或官方白皮书。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，技术落地验证：俞刚提到的Step-audio 2.5、Step-image 2等模型是否已可调用？阶跃星辰是否会开放API或推出体验版应用？这直接影响对模型的评估与采用决策。第二，竞品动态：OpenAI、Google、阿里等公司在多模态统一模型上均有布局（如GPT-4o、Gemini、通义千问），阶跃星辰的“架构演进”路径是否带来差异化优势（如更低的推理成本或更优的编辑能力）需横向对比。第三，生态拓展进度：AICon大会聚集了腾讯、阿里、华为等50多家企业，俞刚的演讲是否会引发生态合作（例如与硬件厂商联合优化端侧部署）或开源计划，值得观察——尤其是Agent工程化论坛上其他公司的反馈。

来源：InfoQ CN

阶跃星辰副总裁俞刚确认出席AICon上海站，分享多模态生成与理解的架构演进