豆包音频生成模型1. 0 发布，开启“音频导演”时代

一句话看懂：字节跳动旗下火山引擎于6月23日发布豆包音频生成模型1.0，用户只需输入包含角色对话、情绪、背景音乐和环境氛围的提示词，即可直接生成一段完整音频，无需手动对白、音效和配乐。这一模型同时解决了长音频中“角色声音一致性”的行业难题，将创作模式从“后期拼接”转向“一次导演”。

事件核心：发生了什么

豆包音频生成模型1.0由火山引擎在6月23日正式推出。其核心能力包括两项技术突破：多模态参考生成和长时语音一致性。此前，创作者需分别生成对白、音效和背景音乐，再手动对齐混音，对后期制作能力要求极高。新模型将此流程高度浓缩：用户输入一段包含戏剧冲突描述的文本，即可直接获得具有叙事张力的完整音频。

在长音频场景中，模型通过文本-音频与参考音频的深度融合，确保跨片段时角色声音特征稳定，避免“角色混淆”。同时，模型支持“零样本多模态音频创建”——仅靠文本描述或参考音频，无需额外训练即可生成高品质目标音频，并实现“一音多角”，即同一声音可在不同情绪和场景中展现高表现力。

目前火山方舟已开放该模型的API测试，个人用户可直接获得30分钟创作额度。后续该模型将落地剪映、即梦、番茄小说等平台。

为什么重要

这项发布对AI音频生成行业具有双重意义。第一，它把音频制作的工程门槛从“专业后期”降至“创意描述”，可能加速音频内容（有声书、播客、广告）的大规模自动化生产。第二，长时语音一致性是此前行业痛点——多数开源或闭源音频大模型在生成超长内容时会出现角色音色漂移。豆包模型直接回应了这一技术瓶颈，表明字节跳动在端到端音频生成方向取得了工程落地层面的领先。

从竞争格局看，该模型与抖音、剪映等亿级用户产品结合，意味着AI音频能力将直接嵌入主流短视频和内容创作工具，其用户渗透速度可能远超独立AI音频应用。

对用户/开发者/创作者的影响

对创作者：尤其是短视频创作者、有声书制作者、播客制作人，可以将工作模式从“剪辑拼接”转变为“提示词导演”。过去需要多人协作的音频后期环节（如配乐、对白、环境音分层）被压缩为一次生成，大大降低专业门槛和制作周期。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对开发者：火山方舟开放API测试，意味着开发者和小型团队可以以较低成本（30分钟免费额度）接入该模型，用于构建智能配音工具、互动剧情生成、自动化内容工厂等应用。但需关注长时一致性和多角色控制的API调用定价及响应速度——目前尚未公布正式商业化价格。

对普通用户：在剪映、番茄小说等平台落地后，普通用户将能通过简单的文本描述生成贴合视频的配音或背景音，甚至为个人创作生成完整有声故事，工具壁垒进一步被打破。

值得关注的后续

第一，商业化定价：目前仅提供30分钟免费额度，正式API定价体系将直接影响开发者是否愿意长期接入，尤其是与开源模型（如Meta的Voicebox衍生产品或国内其他语音生成方案）的成本对比。

第二，在多平台的具体落地形态：在剪映和番茄小说等场景中，该模型是作为插件存在，还是整合为“一键音频生成”面板？落地后的生成质量和延迟将是用户体验的关键。

第三，长时一致性的极限：目前公开信息显示其在长有声书场景表现良好，但未公布最长支持时长、对角色的记忆上限等具体指标。后续横向评测或竞品对标（如阿里巴巴、百度的语音生成方案）可能揭示其真实能力边界。

来源：AIbase

豆包音频生成模型1. 0 发布，开启“音频导演”时代

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

Eval bug: Hexagon HMX matmul hangs on small remainder batch during prefill

物理AI第一块万亿市场，在公路货运先跑通闭环了

微信AI全网最细体验，我又爱上了刷朋友圈

发表回复取消回复