
视频 AI 卷向 5 分钟:全量开源,一次生成,正式告别「盲盒抽卡」
一句话看懂:京东开源了长音视频生成框架 JoyAI-Echo,支持一次性生成最长 5 分钟、保持角色面部与声音一致的高清视频,并允许通过自然语言局部修改。这标志着 AI 视频生成从“抽卡式”随机输出,迈入可编辑、可控制的长内容生产阶段。
事件核心:发生了什么
2026 年 6 月 6 日,京东正式开源 JoyAI-Echo 长音视频生成框架。该模型具备三大核心能力:一是跨镜头“音视频双重一致”,在长达 5 分钟的视频中保持角色面部特征和说话音色不变;二是支持“非线性剪辑”与局部重绘,创作者可直接用自然语言修改某个镜头,无需重新生成整条视频;三是最高可输出 1472×2560 分辨率的高清视频与精细化音频。目前模型代码与权重已公开,可在 GitHub 免费下载。
为什么重要
过去一年,谷歌 Veo 系列、字节 Seedance2.0、快手可灵等模型虽然在画质上进步明显,但生成时长普遍不超过 20 秒,长视频常出现角色“变脸”、声音变化或需要整段重做等问题。JoyAI-Echo 通过构建“身份向心型语料库”与“槽位配对”视听记忆机制,在模型层面解决了长序列下的身份漂移和错误累积问题。更重要的是,全量开源意味着这套方案不会被锁死在单一公司产品边界内,开发者可在其基础上二次开发,研究社区也可基于公开底座继续推进,有望加速行业从演示级工具向工业级生产工具的跨越。
对用户/开发者/创作者的影响
对创作者:告别“输入 Prompt、拼运气抽卡”的模式。导演智能体可将模糊需求结构化,创作者若对某个镜头不满意,只需用大白话提出修改,系统自动定位并局部重绘,大幅降低改稿成本。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
对开发者:模型完全开源,可在垂直行业(如广告、教育、影视前期预演)进行定制开发。配合作者提供的高分辨率实时超分架构,能较低门槛集成到现有生产管线。
对技术决策者:以前长视频只能用于 demo 或搞笑视频,现在它已具备讲完整故事的能力——从数字人助手的连贯表述,到短视频平台的长脚本文案,应用场景明显扩大。
值得关注的后续
第一,开源生态的反馈速度——代码公开后 GitHub 星标和衍生项目数量,将直接反映开发者的接受程度与社区活力;第二,竞品跟进——字节、快手等厂商是否会同步开放类似能力或推出更长时长的闭源服务;第三,实际落地节奏——目前公开信息显示该模型已跑出大量两分钟以上视频,但能否真正嵌入 Netflix、YouTube 等长内容制作工作流,还需观察影视行业的实际测试效果。另外,模型训练数据来自电影与电视剧,后续是否会面临版权合规问题,值得留意。
来源:Readhub · AI

![[Codex] Codex 使用求助,使用国产模型总是中断,是我使用姿势不对吗](https://www.chat-gpts.plus/wp-content/uploads/2026/06/ai_cover_4-231-768x403.jpg)
