火山引擎发布豆包音频生成模型1.0：一句话生成影视级音频，角色声音 10 分钟都不”串戏”

一句话看懂：火山引擎今日正式发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），用户只需一句话指令即可生成包含对话、音效和背景音乐的完整音频作品，且长音频中角色声音、情感节奏能保持高度一致，极大简化传统多轨音频制作的复杂流程。

事件核心：发生了什么

6月24日，火山引擎在行业内率先推出豆包音频生成模型1.0。该模型支持文本或音频作为输入，端到端输出完整的音频作品，核心突破在于一个Prompt能同时处理对话、音效和背景音乐三大元素，无需创作者进行人工多轨剪辑与混音。用户可以在单一指令中定义多个角色的台词、语气和情感节奏，嵌入笑声、叹息、停顿及方言口音等细节，并同步生成背景音乐与环境音，直接获得可发布的成品。对于长音频创作，模型支持每次生成2分钟音频，并通过扩展功能在长达10分钟的持续生成中保持声音质量统一，避免角色“串戏”。此外，模型支持声音与风格的解耦控制，同一声音可适配不同情绪与上下文，实现“一声多角”。目前火山方舟已开放API测试，个人用户可在体验中心获得30分钟创作额度，该模型后续还将落地剪映、即梦、番茄小说等产品。

为什么重要

此次发布标志着AI音频生成从“片段式工具”向“一站式生产平台”的关键跨越。此前，音频制作高度依赖后期技术，需依次生成对话、音效和音乐并手动对齐混音，而豆包1.0将所有步骤压缩为一次Prompt指令，直接改变了音频内容的生产流程。从行业角度看，这一模型降低了音频创作的专业门槛，尤其对于长音频如有声书、播客、系列剧而言，声音一致性是用户留存的关键，豆包1.0解决了该痛点，具备直接替代部分传统音频后期工作的能力。对火山引擎而言，该模型是其大模型生态在音视频领域的重要布局，通过API和产品化落地（剪映、即梦等），可快速渗透内容创作者群体，并可能推动音频生成成本与效率的行业新标准。

对用户/开发者/创作者的影响

对个人用户和内容创作者而言，豆包1.0意味着无需专业录音设备和后期技能，即可快速生成影视级别的音频内容，适用于播客、有声书、品牌宣传片等场景，极大缩短了从创意到成品的周期。对开发者与企业用户，火山方舟API提供了标准化的音频生成接口，可通过一段代码集成多角色对话、音效与背景音乐联动的能力，适用于教育、娱乐、广告配音、游戏角色语音等垂直领域。尤其值得关注的是，该模型支持“一声多角”及声音风格解耦，让同一声音适配不同角色设定，这将大大提升大规模角色配音与创意音频制作的灵活性和可复用性。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

首先，API测试期间的具体定价模式与商用价格尚未公布，这将是开发者评估接入成本的关键变量。其次，模型在长音频生成中的实际效果——尤其是10分钟以上复杂场景中的声音一致性——还需独立测试验证。第三，竞品如OpenAI的Jukebox、Meta的MusicGen等在音频生成领域已有布局，豆包1.0若要在国内快速占据市场，需关注其与剪映、番茄小说等产品深度融合后的用户体验反馈。最后，监管部门对AI生成音频内容的标识与合规要求（如合成音频需明确告知消费者）可能影响产品上线节奏，需密切跟进相关政策动态。

来源：AIbase

火山引擎发布豆包音频生成模型1.0：一句话生成影视级音频，角色声音 10 分钟都不”串戏”

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

Eval bug: Hexagon HMX matmul hangs on small remainder batch during prefill

物理AI第一块万亿市场，在公路货运先跑通闭环了

微信AI全网最细体验，我又爱上了刷朋友圈

发表回复取消回复