音频创作迎来新突破!Stability AI 发布 Stable Audio 3:长音频秒级生成

音频创作迎来新突破!Stability AI 发布 Stable Audio 3:长音频秒级生成

音频创作迎来新突破!Stability AI 发布 Stable Audio 3:长音频秒级生成

一句话看懂:Stability AI 于 2026 年 5 月 27 日正式发布最新一代音频大模型 Stable Audio 3,并部分开源模型权重。该模型在消费级硬件上即可实现长达 380 秒的高质量音频生成,且渲染速度达到秒级,极大降低了专业音频创作的门槛。

事件核心:发生了什么

本次发布的 Stable Audio 3 系列模型覆盖从小到大的多种规格,兼顾音乐创作和音效制作等场景。其核心技术架构由两部分构成:一是名为 SAME 的语义声学自动编码器,可将音频压缩 4096 倍,从而显著缩短潜变量序列长度;二是高效的扩散变换器。得益于这种高效压缩机制,即便是普通消费者级硬件也能流畅运行长时间、大尺寸的音频生成任务。

在性能测试中,该模型可以在约 0.62 秒内渲染一段 20 秒的音频,生成 380 秒的音乐也仅需 1.31 秒。这一效率来自于其创新的三段式训练流程,在推理阶段不再依赖传统的无分类器引导技术,实现了超快的单步前向传播。

目前,Stability AI 已将中小型模型权重在 Hugging Face 平台开放获取,更强性能的大型版本则通过商业许可方式提供。

为什么重要

Stable Audio 3 的发布对 AI 音频生成领域有标志性意义。首先,它突破了此前模型在硬件和时长上的限制:过去生成一段长音频通常需要高性能 GPU 和较长的等待时间,而该模型通过 4096 倍的压缩率,让长音频实时生成成为可能。其次,它引入了基于图像补全技术的音频编辑功能,这在扩散模型应用中属于创新尝试,为内容创作者提供了更精细的控制力。最后,部分开源的选择有助于吸引开发者围绕其构建生态,形成对现有闭源音频 AI 产品的竞争压力。

对用户/开发者/创作者的影响

对于专业音乐和音效创作者:不再受限于昂贵云算力或本地高性能硬件,可在笔记本上完成完整音轨的生成和编辑,极大降低了创作成本与时间。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对于开发者与AI应用集成方:开源的中小模型权重提供了一条低门槛接入路径,可用于游戏音效、短视频配音、交互式应用等场景的自动化音频生成。但商业化部署需注意大型模型的许可证要求。

对于普通内容创作者:秒级的生成速度让“语音+音乐+音效”的即时合成成为可能,有望出现在视频编辑、直播辅助等工具中,改变音频内容的制作流程。

值得关注的后续

第一,开源模型的社区反馈与二次开发活跃度,这将决定 Stability AI 能否在音频生成赛道建立起类似图像领域的生态优势。

第二,大型模型的商业许可定价策略。如果其 API 或本地部署方案具备竞争力,可能吸引影视、游戏等企业用户从现有方案迁移。

第三,竞品动态。Anthropic、ElevenLabs 等公司近期也在音频 AI 领域有布局,Stable Audio 3 的秒级生成效率将迫使对手加速优化推理速度与硬件适配性。

来源:AIbase

celebrityanime
celebrityanime
文章: 3961

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注