
音频创作迎来新突破!Stability AI 发布 Stable Audio 3:长音频秒级生成
一句话看懂:Stability AI 于 2026 年 5 月 27 日正式发布最新一代音频大模型 Stable Audio 3,并部分开源模型权重。该模型在消费级硬件上即可实现长达 380 秒的高质量音频生成,且渲染速度达到秒级,极大降低了专业音频创作的门槛。
事件核心:发生了什么
本次发布的 Stable Audio 3 系列模型覆盖从小到大的多种规格,兼顾音乐创作和音效制作等场景。其核心技术架构由两部分构成:一是名为 SAME 的语义声学自动编码器,可将音频压缩 4096 倍,从而显著缩短潜变量序列长度;二是高效的扩散变换器。得益于这种高效压缩机制,即便是普通消费者级硬件也能流畅运行长时间、大尺寸的音频生成任务。
在性能测试中,该模型可以在约 0.62 秒内渲染一段 20 秒的音频,生成 380 秒的音乐也仅需 1.31 秒。这一效率来自于其创新的三段式训练流程,在推理阶段不再依赖传统的无分类器引导技术,实现了超快的单步前向传播。
目前,Stability AI 已将中小型模型权重在 Hugging Face 平台开放获取,更强性能的大型版本则通过商业许可方式提供。
为什么重要
Stable Audio 3 的发布对 AI 音频生成领域有标志性意义。首先,它突破了此前模型在硬件和时长上的限制:过去生成一段长音频通常需要高性能 GPU 和较长的等待时间,而该模型通过 4096 倍的压缩率,让长音频实时生成成为可能。其次,它引入了基于图像补全技术的音频编辑功能,这在扩散模型应用中属于创新尝试,为内容创作者提供了更精细的控制力。最后,部分开源的选择有助于吸引开发者围绕其构建生态,形成对现有闭源音频 AI 产品的竞争压力。
对用户/开发者/创作者的影响
对于专业音乐和音效创作者:不再受限于昂贵云算力或本地高性能硬件,可在笔记本上完成完整音轨的生成和编辑,极大降低了创作成本与时间。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
对于开发者与AI应用集成方:开源的中小模型权重提供了一条低门槛接入路径,可用于游戏音效、短视频配音、交互式应用等场景的自动化音频生成。但商业化部署需注意大型模型的许可证要求。
对于普通内容创作者:秒级的生成速度让“语音+音乐+音效”的即时合成成为可能,有望出现在视频编辑、直播辅助等工具中,改变音频内容的制作流程。
值得关注的后续
第一,开源模型的社区反馈与二次开发活跃度,这将决定 Stability AI 能否在音频生成赛道建立起类似图像领域的生态优势。
第二,大型模型的商业许可定价策略。如果其 API 或本地部署方案具备竞争力,可能吸引影视、游戏等企业用户从现有方案迁移。
第三,竞品动态。Anthropic、ElevenLabs 等公司近期也在音频 AI 领域有布局,Stable Audio 3 的秒级生成效率将迫使对手加速优化推理速度与硬件适配性。
来源:AIbase


