Stability AI 推出音频模型 Stability Audio 3.0，可生成最长 6 分钟专业级歌曲

一句话看懂：Stability AI 于 2026 年 5 月 20 日发布 Stability Audio 3.0，其顶配模型可生成超过 6 分钟的专业级音乐，同时将三款小模型开源。此举不仅显著拉长 AI 音乐生成时长，还通过开源策略降低开发者门槛，但也延续了核心模型仅限付费 API 使用的闭源路线。

事件核心：发生了什么

Stability AI 推出音频生成模型家族 Stability Audio 3.0，包含四款规格：小型 XFS 版、小型版（4590 万参数）、中型版（14 亿参数）和大型版（27 亿参数）。小型模型聚焦设备端本地运行，可生成两分钟以内的声音与音乐；中型和大型模型支持长达 6 分 20 秒的完整乐曲，相比 2024 年的 Stable Audio 2.0，时长翻倍以上。公司已将小型 SFX、小型及中型模型开源，大型模型仅通过 API 与付费托管服务提供，年营收超 100 万美元的企业需另购商业授权。为规避合规风险，Stability AI 已与华纳音乐集团、环球音乐集团达成合作，强调新模型基于合法授权数据集训练。

为什么重要

Stability Audio 3.0 在技术层面直接将 AI 音乐生成时长从分钟级推进至数分钟级别，逼近专业创作场景对完整曲目长度的需求。其开源三款模型的决策，延续了 Stability AI 在图像生成领域（如 Stable Diffusion）的生态战略，有利于吸引开发者、研究者和小型团队快速接入语音与音乐生成能力，加速 AI 音视频内容创作的普及。同时，大型模型仅闭源收费，结合与主流音乐集团的版权合作，显示了公司在商业化与合规性之间的平衡——既想维系开源社区口碑，又试图在专业音乐工具市场构建付费护城河。

对用户/开发者/创作者的影响

普通用户与创作者：可免费下载开源模型，在本地或低算力设备上生成两分钟以内的音乐或音效，适合播客、短视频、游戏音效等轻量场景。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

开发者和企业：开源模型允许自由修改权重，为定制化音频 AI 应用提供底层基础；需长时长或高质量输出的团队，必须接入大型模型的 API 并承担费用。

专业音乐人：Stability AI 正为专业音乐人打造新产品线，并邀请前环球音频与芬达首席数字官伊桑·卡普兰领衔，预示未来可能推出集成化的 AI 作曲工具，但具体功能尚未公布。

值得关注的后续

1. 大型模型 API 定价细节尚未公开，是否影响中小型创作者的使用成本。

2. 开源模型能否形成类似 Stable Diffusion 的生态繁荣，出现更多社区驱动的音乐生成应用或插件。

3. 其他 AI 音乐公司（如 Suno、ElevenLabs）是否会在时长、开源策略或版权合作上跟进，形成新一轮竞争。

4. 专业音乐人产品线的落地情况——是作为独立 SaaS 工具，还是嵌入现有 DAW（数字音频工作站）生态。

来源：Readhub · AI

Stability AI 推出音频模型 Stability Audio 3.0，可生成最长 6 分钟专业级歌曲