视频 AI 卷向 5 分钟：全量开源，一次生成，正式告别「盲盒抽卡」

一句话看懂：京东开源了长音视频生成框架 JoyAI-Echo，支持一次性生成最长 5 分钟、保持角色面部与声音一致的高清视频，并允许通过自然语言局部修改。这标志着 AI 视频生成从“抽卡式”随机输出，迈入可编辑、可控制的长内容生产阶段。

事件核心：发生了什么

2026 年 6 月 6 日，京东正式开源 JoyAI-Echo 长音视频生成框架。该模型具备三大核心能力：一是跨镜头“音视频双重一致”，在长达 5 分钟的视频中保持角色面部特征和说话音色不变；二是支持“非线性剪辑”与局部重绘，创作者可直接用自然语言修改某个镜头，无需重新生成整条视频；三是最高可输出 1472×2560 分辨率的高清视频与精细化音频。目前模型代码与权重已公开，可在 GitHub 免费下载。

为什么重要

过去一年，谷歌 Veo 系列、字节 Seedance2.0、快手可灵等模型虽然在画质上进步明显，但生成时长普遍不超过 20 秒，长视频常出现角色“变脸”、声音变化或需要整段重做等问题。JoyAI-Echo 通过构建“身份向心型语料库”与“槽位配对”视听记忆机制，在模型层面解决了长序列下的身份漂移和错误累积问题。更重要的是，全量开源意味着这套方案不会被锁死在单一公司产品边界内，开发者可在其基础上二次开发，研究社区也可基于公开底座继续推进，有望加速行业从演示级工具向工业级生产工具的跨越。

对用户/开发者/创作者的影响

对创作者：告别“输入 Prompt、拼运气抽卡”的模式。导演智能体可将模糊需求结构化，创作者若对某个镜头不满意，只需用大白话提出修改，系统自动定位并局部重绘，大幅降低改稿成本。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对开发者：模型完全开源，可在垂直行业（如广告、教育、影视前期预演）进行定制开发。配合作者提供的高分辨率实时超分架构，能较低门槛集成到现有生产管线。

对技术决策者：以前长视频只能用于 demo 或搞笑视频，现在它已具备讲完整故事的能力——从数字人助手的连贯表述，到短视频平台的长脚本文案，应用场景明显扩大。

值得关注的后续

第一，开源生态的反馈速度——代码公开后 GitHub 星标和衍生项目数量，将直接反映开发者的接受程度与社区活力；第二，竞品跟进——字节、快手等厂商是否会同步开放类似能力或推出更长时长的闭源服务；第三，实际落地节奏——目前公开信息显示该模型已跑出大量两分钟以上视频，但能否真正嵌入 Netflix、YouTube 等长内容制作工作流，还需观察影视行业的实际测试效果。另外，模型训练数据来自电影与电视剧，后续是否会面临版权合规问题，值得留意。

来源：Readhub · AI

视频 AI 卷向 5 分钟：全量开源，一次生成，正式告别「盲盒抽卡」