
Stability AI 推出音频模型 Stability Audio 3.0,可生成最长 6 分钟专业级歌曲
一句话看懂:Stability AI 于 2026 年 5 月 20 日发布 Stability Audio 3.0,其顶配模型可生成超过 6 分钟的专业级音乐,同时将三款小模型开源。此举不仅显著拉长 AI 音乐生成时长,还通过开源策略降低开发者门槛,但也延续了核心模型仅限付费 API 使用的闭源路线。
事件核心:发生了什么
Stability AI 推出音频生成模型家族 Stability Audio 3.0,包含四款规格:小型 XFS 版、小型版(4590 万参数)、中型版(14 亿参数)和大型版(27 亿参数)。小型模型聚焦设备端本地运行,可生成两分钟以内的声音与音乐;中型和大型模型支持长达 6 分 20 秒的完整乐曲,相比 2024 年的 Stable Audio 2.0,时长翻倍以上。公司已将小型 SFX、小型及中型模型开源,大型模型仅通过 API 与付费托管服务提供,年营收超 100 万美元的企业需另购商业授权。为规避合规风险,Stability AI 已与华纳音乐集团、环球音乐集团达成合作,强调新模型基于合法授权数据集训练。
为什么重要
Stability Audio 3.0 在技术层面直接将 AI 音乐生成时长从分钟级推进至数分钟级别,逼近专业创作场景对完整曲目长度的需求。其开源三款模型的决策,延续了 Stability AI 在图像生成领域(如 Stable Diffusion)的生态战略,有利于吸引开发者、研究者和小型团队快速接入语音与音乐生成能力,加速 AI 音视频内容创作的普及。同时,大型模型仅闭源收费,结合与主流音乐集团的版权合作,显示了公司在商业化与合规性之间的平衡——既想维系开源社区口碑,又试图在专业音乐工具市场构建付费护城河。
对用户/开发者/创作者的影响
普通用户与创作者:可免费下载开源模型,在本地或低算力设备上生成两分钟以内的音乐或音效,适合播客、短视频、游戏音效等轻量场景。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
开发者和企业:开源模型允许自由修改权重,为定制化音频 AI 应用提供底层基础;需长时长或高质量输出的团队,必须接入大型模型的 API 并承担费用。
专业音乐人:Stability AI 正为专业音乐人打造新产品线,并邀请前环球音频与芬达首席数字官伊桑·卡普兰领衔,预示未来可能推出集成化的 AI 作曲工具,但具体功能尚未公布。
值得关注的后续
1. 大型模型 API 定价细节尚未公开,是否影响中小型创作者的使用成本。
2. 开源模型能否形成类似 Stable Diffusion 的生态繁荣,出现更多社区驱动的音乐生成应用或插件。
3. 其他 AI 音乐公司(如 Suno、ElevenLabs)是否会在时长、开源策略或版权合作上跟进,形成新一轮竞争。
4. 专业音乐人产品线的落地情况——是作为独立 SaaS 工具,还是嵌入现有 DAW(数字音频工作站)生态。
来源:Readhub · AI


