
一句话看懂:AudioX-Turbo通过蒸馏技术将音频生成所需的推理步数从100步压缩到4步,10秒音频生成仅需0.24秒。团队同步开源了920万条带时间戳的“强指令”数据集,让模型能精确理解“先蝉鸣、后吉他”这类复杂指令。
事件核心:发生了什么
2026年6月15日,AI音频创企Noiz AI联合香港科技大学、清华大学发布了AudioX-Turbo,这是一个支持文本、视频、图像等多模态输入的音频生成大模型。该模型基于原生多模态Transformer(MMDiT)架构,参数量2.7B,全链路开源,包括推理代码、训练代码和模型权重。
核心提速方法在于分布匹配蒸馏(DMD)与对抗蒸馏技术的结合:将原本扩散生成所需的50-200步迭代降至4步,同时通过CFG蒸馏去除了额外的前向计算开销。在单张RTX 4090上,生成10秒音频的实时系数(RTF)仅为0.02。在数据层面,团队自建了约920万样本的IF-caps-Pro数据集,采用Gemini 2.5 Pro生成带时间戳的结构化描述模板,再由大模型扩写为精细指令。
为什么重要
此前AI音频大模型的核心瓶颈是“速度”与“可控性”难以兼得。AudioX-Turbo在一条技术路线上同时解决了这两个问题。4步推理意味着实时音频生成成为现实,这对交互式应用(如游戏、直播、虚拟人对话)具备颠覆性意义。同时,时间戳控制能力的加入,让音频模型从“生成音质好但难以精准控制”跨越到“能按剧本精确编排声音事件”。
更为重要的是,项目选择了完全开源。模型权重、训练代码的公开,意味着整个AI音频赛道可以在其基础上进行微调、加速和行业化落地,而非被特定公司的API锁定。从测试数据看,4步生成版本在音质指标上已经持平甚至反超100步的Teacher模型,这给蒸馏技术路线提供了强有力的实证。
对用户/开发者/创作者的影响
对AI音频开发者而言,可直接基于开源权重进行二次开发,或复现蒸馏流程对自家模型进行加速。项目提供的代码和数据集可作为新研究的基线。对普通创作者(播客剪辑师、短视频博主),AudioX-Turbo的极速生成有望让实时音效叠加走入工作流——例如在配音过程中实时匹配环境音。对游戏互动内容公司,0.24秒生成10秒音频的推理延迟,已经能够支撑游戏引擎实时拟音或互动剧配音的即时反馈需求。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
需要注意的是,目前公开的实验数据主要集中在英文场景的测试基准上,在中文多音字、方言等场景下的表现尚未完整披露,用户在生产环境中应自行评估。
值得关注的后续
第一,开源后开发者社区的适配速度与生态扩展规模,尤其是否有第三方推出量化版或移动端部署版本,将决定其实际使用率。第二,AudioX-Turbo的蒸馏方案能否被其他音频厂商(如ElevenLabs、Stable Audio)跟进引入,并转化为API服务升级。第三,目前公开信息中未明确商业定价与云端API计划,如果Noiz AI开放商用许可,将直接影响企业对开源方案还是API服务的选择。
来源:量子位 · 每日最新


