[推广] 用 GPT image 2 做了一个解说视频生成器

一句话看懂：一位开发者基于 OpenAI 最新图像模型 GPT image 2 构建了名为 Knowcast 的解说视频生成器，并公开指出了该模型在生成连贯故事画面时存在极繁主义倾向和 prompt 调优困难的问题。这不仅是 GPT image 2 的一次创意应用落地，也暴露了当前多模态模型在叙事连贯性上的实际技术短板。

事件核心：发生了什么

开发者发布了一个名为 Knowcast 的在线工具（网址为 knowcast.app），核心功能是利用 GPT image 2 将文字说明或解说脚本自动转化为连贯的视频画面序列。开发者经过大量 prompt 调试，才使 GPT image 2 在单个画面质量上达到满意效果。但在构建多帧叙事时，遇到了该模型的“极繁主义”倾向（画面元素超出必要范围）以及连续故事 prompt 难写的问题。此外，开发者还指出寻找稳定且高质量的 GPT image 中转 API 渠道十分困难，市场上许多中转站输出质量参差不齐。目前该产品已开放测试，用户可免费尝试生成解说类视频。

为什么重要

GPT image 2 被普遍认为在单张图片的保真度、光影和细节上已达到开源和闭源图像模型的第一梯队，但 Knowcast 项目验证了一个容易被忽略的现实：单张图片质量不等于故事生成能力。对于 AI 视频生成行业而言，GPT image 2 在“连续时序画面一致性”上仍存在明显短板，这直接限制了它从静态图像工具演进为叙事视频生成引擎的可能。同时，开发者对 API 质量的吐槽也反映出，作为供给侧的 GPT image 模型生态尚不成熟，中低端算力批发商无法保证足够的推理精度，这会拖慢相关 AI 应用的商业化节奏。

对用户/开发者/创作者的影响

对内容创作者来说，Knowcast 提供了一个低门槛的测试入口，可用于快速生成知识科普、产品讲解等简单视频，但需要接受画面偶不连贯或过繁的问题。对独立开发者而言，该项目提示了一条可行但坎坷的路径：GPT image 2 的单帧能力足够强，但构建多帧工作流时必须自行设计画面过渡策略和 prompt 模板，并且需谨慎选择图像 API 供应商，以避免因推理质量不稳定而频繁调优。对 AI 应用创业者来说，这平衡了一个判断：短期内依赖单一模型（如 GPT image 2）做完整视频故事生成风险较高，可能需要结合其他渲染或编曲技术才能交付可靠的商业产品。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，Knowcast 产品是否会持续更新并公开其 prompt 模板或 API 选型方案，这可能成为社区复用 GPT image 2 做视频的依据。第二，OpenAI 是否会针对多帧叙事场景对 GPT image 2 进行专项优化（例如推出 story mode 或场景列表 API），这将直接影响视频生成类应用的开发方向。第三，是否能出现比 Knowcast 更高质量的中转 API 聚合平台，以解决当前推理质量参差不齐的瓶颈，这决定了中小开发者能否低成本地接入 GPT image 2。

来源：V2EX (创意工作者社区)

[推广] 用 GPT image 2 做了一个解说视频生成器