音频创作迎来新突破！Stability AI 发布 Stable Audio 3：长音频秒级生成

一句话看懂：Stability AI 于 2026 年 5 月 27 日正式发布最新一代音频大模型 Stable Audio 3，并部分开源模型权重。该模型在消费级硬件上即可实现长达 380 秒的高质量音频生成，且渲染速度达到秒级，极大降低了专业音频创作的门槛。

事件核心：发生了什么

本次发布的 Stable Audio 3 系列模型覆盖从小到大的多种规格，兼顾音乐创作和音效制作等场景。其核心技术架构由两部分构成：一是名为 SAME 的语义声学自动编码器，可将音频压缩 4096 倍，从而显著缩短潜变量序列长度；二是高效的扩散变换器。得益于这种高效压缩机制，即便是普通消费者级硬件也能流畅运行长时间、大尺寸的音频生成任务。

在性能测试中，该模型可以在约 0.62 秒内渲染一段 20 秒的音频，生成 380 秒的音乐也仅需 1.31 秒。这一效率来自于其创新的三段式训练流程，在推理阶段不再依赖传统的无分类器引导技术，实现了超快的单步前向传播。

目前，Stability AI 已将中小型模型权重在 Hugging Face 平台开放获取，更强性能的大型版本则通过商业许可方式提供。

为什么重要

Stable Audio 3 的发布对 AI 音频生成领域有标志性意义。首先，它突破了此前模型在硬件和时长上的限制：过去生成一段长音频通常需要高性能 GPU 和较长的等待时间，而该模型通过 4096 倍的压缩率，让长音频实时生成成为可能。其次，它引入了基于图像补全技术的音频编辑功能，这在扩散模型应用中属于创新尝试，为内容创作者提供了更精细的控制力。最后，部分开源的选择有助于吸引开发者围绕其构建生态，形成对现有闭源音频 AI 产品的竞争压力。

对用户/开发者/创作者的影响

对于专业音乐和音效创作者：不再受限于昂贵云算力或本地高性能硬件，可在笔记本上完成完整音轨的生成和编辑，极大降低了创作成本与时间。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对于开发者与AI应用集成方：开源的中小模型权重提供了一条低门槛接入路径，可用于游戏音效、短视频配音、交互式应用等场景的自动化音频生成。但商业化部署需注意大型模型的许可证要求。

对于普通内容创作者：秒级的生成速度让“语音+音乐+音效”的即时合成成为可能，有望出现在视频编辑、直播辅助等工具中，改变音频内容的制作流程。

值得关注的后续

第一，开源模型的社区反馈与二次开发活跃度，这将决定 Stability AI 能否在音频生成赛道建立起类似图像领域的生态优势。

第二，大型模型的商业许可定价策略。如果其 API 或本地部署方案具备竞争力，可能吸引影视、游戏等企业用户从现有方案迁移。

第三，竞品动态。Anthropic、ElevenLabs 等公司近期也在音频 AI 领域有布局，Stable Audio 3 的秒级生成效率将迫使对手加速优化推理速度与硬件适配性。

来源：AIbase

音频创作迎来新突破！Stability AI 发布 Stable Audio 3：长音频秒级生成