清华开源视频生成加速框架：无需重训练，视频生成提速 1.8 倍，质量几乎无损

一句话看懂：清华大学与 GigaAI 联合开源的 RhymeFlow 框架，在不重新训练模型的前提下，通过为视频中不同帧分配不同的计算步数，将主流 DiT 模型（如 Wan 2.1、CogVideoX）的推理速度提升 1.5 到 1.8 倍，且经双盲测试，62.5% 的用户认为其生成质量与原始模型无差别。

事件核心：发生了什么

生成一段 81 帧的 720p 视频，在单张 A800 GPU 上需要近 17 分钟。这一瓶颈源于 DiT 架构中 3D 时空注意力的二次方复杂度，且现有加速方法无法跨帧压缩冗余。RhymeFlow 采用“帧间异步调度”策略：通过潜空间语义相似度自动识别关键帧（例如物体运动突变或场景切换的帧），让关键帧走完完整的 50 步去噪流程，而非关键帧则在高噪声阶段每 2 步更新一次、低噪声阶段每 3 步更新一次，并通过线性投影模块补全跳步造成的中间状态缺失。在 CogVideoX 上以 1.78 倍加速运行，主体一致性保持在 98.6%；与现有加速方法 SPA 叠加后，加速比可达 1.93 倍。

为什么重要

这一突破体现在两个层面。第一，它开辟了全新的加速维度——帧间调度，而非仅仅优化单步内的计算量，这对所有基于扩散模型的视频生成工具具有普适性。第二，完全无需重训练，意味着普通开发者或创作者可以直接套用在已有的开源模型上，成本极低。对于 AI 视频生成产业链而言，这是目前公开信息中首个将“按帧差异化计算”概念落地的训练免费方案，可能促使更多团队重新审视视频生成中“每一帧都同等重要”的默认假设。

对用户/开发者/创作者的影响

对于直接部署视频生成模型的开发者，RhymeFlow 提供了一种即插即用的加速方式，可以显著降低单次推理的算力成本或等待时间，尤其适合对生成延迟敏感的场景。对于内容创作者，如果该框架得到广泛集成，未来使用 Wan 2.1、CogVideoX 等模型生成高清长视频时，算力费用或排队等待时间有望压缩近一半，同时保持接近原始画质。目前项目已开源在 GitHub，社区可以自行测试并叠加其他加速方法，进一步优化。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，研究团队计划引入强化学习自适应调度，而非固定跳步规则，这将进一步提升效率与质量的平衡，值得关注其落地效果。第二，RhymeFlow 目前主要优化了视频生成的后半段（低噪声阶段），其与光流预测、KV 缓存等其他技术的叠加极限还有待验证。第三，如果这一框架被主要开源视频模型（如 Stable Video Diffusion、CogVideoX 等）原生集成，可能推动长视频、高帧率生成在消费级硬件上的实用化进程。

来源：Readhub · AI

清华开源视频生成加速框架：无需重训练，视频生成提速 1.8 倍，质量几乎无损

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

亚马逊与白宫如何终结了Anthropic的童话

资料来源：白宫不太可能将出口限制扩大到其他人工智能公司（Leo Schwartz/The Information）

若不奋力一搏，我们无法实现通用人工智能

发表回复取消回复