4步出声，单卡0.24秒！Noiz AI联合港科大清华，开源音频生成大模型

一句话看懂：AudioX-Turbo通过蒸馏技术将音频生成所需的推理步数从100步压缩到4步，10秒音频生成仅需0.24秒。团队同步开源了920万条带时间戳的“强指令”数据集，让模型能精确理解“先蝉鸣、后吉他”这类复杂指令。

事件核心：发生了什么

2026年6月15日，AI音频创企Noiz AI联合香港科技大学、清华大学发布了AudioX-Turbo，这是一个支持文本、视频、图像等多模态输入的音频生成大模型。该模型基于原生多模态Transformer（MMDiT）架构，参数量2.7B，全链路开源，包括推理代码、训练代码和模型权重。

核心提速方法在于分布匹配蒸馏（DMD）与对抗蒸馏技术的结合：将原本扩散生成所需的50-200步迭代降至4步，同时通过CFG蒸馏去除了额外的前向计算开销。在单张RTX 4090上，生成10秒音频的实时系数（RTF）仅为0.02。在数据层面，团队自建了约920万样本的IF-caps-Pro数据集，采用Gemini 2.5 Pro生成带时间戳的结构化描述模板，再由大模型扩写为精细指令。

为什么重要

此前AI音频大模型的核心瓶颈是“速度”与“可控性”难以兼得。AudioX-Turbo在一条技术路线上同时解决了这两个问题。4步推理意味着实时音频生成成为现实，这对交互式应用（如游戏、直播、虚拟人对话）具备颠覆性意义。同时，时间戳控制能力的加入，让音频模型从“生成音质好但难以精准控制”跨越到“能按剧本精确编排声音事件”。

更为重要的是，项目选择了完全开源。模型权重、训练代码的公开，意味着整个AI音频赛道可以在其基础上进行微调、加速和行业化落地，而非被特定公司的API锁定。从测试数据看，4步生成版本在音质指标上已经持平甚至反超100步的Teacher模型，这给蒸馏技术路线提供了强有力的实证。

对用户/开发者/创作者的影响

对AI音频开发者而言，可直接基于开源权重进行二次开发，或复现蒸馏流程对自家模型进行加速。项目提供的代码和数据集可作为新研究的基线。对普通创作者（播客剪辑师、短视频博主），AudioX-Turbo的极速生成有望让实时音效叠加走入工作流——例如在配音过程中实时匹配环境音。对游戏互动内容公司，0.24秒生成10秒音频的推理延迟，已经能够支撑游戏引擎实时拟音或互动剧配音的即时反馈需求。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

需要注意的是，目前公开的实验数据主要集中在英文场景的测试基准上，在中文多音字、方言等场景下的表现尚未完整披露，用户在生产环境中应自行评估。

值得关注的后续

第一，开源后开发者社区的适配速度与生态扩展规模，尤其是否有第三方推出量化版或移动端部署版本，将决定其实际使用率。第二，AudioX-Turbo的蒸馏方案能否被其他音频厂商（如ElevenLabs、Stable Audio）跟进引入，并转化为API服务升级。第三，目前公开信息中未明确商业定价与云端API计划，如果Noiz AI开放商用许可，将直接影响企业对开源方案还是API服务的选择。

来源：量子位 · 每日最新

4步出声，单卡0.24秒！Noiz AI联合港科大清华，开源音频生成大模型

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

EmailFlow.AI

Kickbacks.ai

格隆汇 6 月 15 日｜AI 服务器经纪商 Hydra Host 完成新一轮 1 亿美元融资，估值约 8 亿美元，英伟达参与了该融资轮次。

发表回复取消回复