往 Codex 里塞块无限画布,AI 改图终于能指哪打哪了

开发者基于 tldraw 创建一个名为 Cowart 的本地无限画布插件,让 OpenAI 的 Codex 不仅能读文字提示,还能识别用户在图片上的箭头、批注和位置标记,实现“指哪打哪”的图像修改,而非传统的一长串文字描述。

往 Codex 里塞块无限画布,AI 改图终于能指哪打哪了

一句话看懂:开发者基于 tldraw 创建一个名为 Cowart 的本地无限画布插件,让 OpenAI 的 Codex 不仅能读文字提示,还能识别用户在图片上的箭头、批注和位置标记,实现“指哪打哪”的图像修改,而非传统的一长串文字描述。

事件核心:发生了什么

网友 @zhongerxin 基于开源白板工具 tldraw 改造了一个名为 Cowart 的本地插件,将其接入 OpenAI 的 Codex 代码 Agent。用户在 Cowart 画布上生成图片后,可以直接在图上画箭头、写批注,例如在人物眼睛位置画箭头并注明“给眼睛戴上墨镜”,在杯身位置标注“加上柴犬logo”。Codex 读取这份标注截图后,能根据空间位置和文字描述生成一张修订版图片,并放置在原图旁边。该插件通过 Codex 的 MCP(Model Context Protocol)工具和本地服务实现画布与 Agent 的联动,安装过程由 Codex 按照指定仓库地址自动执行。

为什么重要

这一交互方式解决了大模型在图像生成和修改中长期存在的“空间理解”痛点。传统方式要求用户将画面想象翻译成精确的文字提示词,而 Cowart 将空间信息转化为可视化的箭头、圈选和位置标注,大幅降低了位置描述的歧义和反复沟通成本。这种“画布+标注+生成”的交互逻辑,本质上是把 AI 从纯粹的文本对话窗口拉向一个空间化的操作界面。它验证了一个方向:只要 Agent 客户端能调用本地 MCP 工具、访问本地画布服务和图像生成能力,类似玩法就能移植到其他 AI 工具上,而不仅限于 Codex。

对用户/开发者/创作者的影响

对普通用户:降低了图像生成和精确修改的门槛。用户不需要再绞尽脑汁拼写“把左上角的红色杯子往右移动三厘米并换成蓝色”,直接在图上指出来即可。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对开发者和创作者:提供了 Agent 间协作的新范式——对话是线性的,创造是空间性的。开发者可以基于 tldraw 扩展自定义形状、工具和 UI 组件,把画布变成 Agent 的“视觉输入接口”。不过目前 Cowart 体验仍较粗糙:响应慢、额度消耗高、画布服务与 MCP 工具间偶发断联问题,需要重开画布或重启对话恢复。

对企业级应用:OpenAI 发布的内部白皮书显示,Codex 已在安全、产品工程、API 和基础设施等团队中日常使用,最佳实践包括先用 Ask Mode 规划再执行、借助 AGENTS.md 提供长期上下文。Cowart 这类插件正是这一理念的延伸——将画布、表格、网页等桌面环境变成 Agent 可调用的本地能力,推动 Codex 从代码助手演变成“工作台”。

值得关注的后续

第一,Cowart 目前是本地插件,如果 OpenAI 官方将类似交互能力直接集成到 Codex 或未来产品中,会极大影响竞品布局。第二,MCP 工具与画布服务的稳定性问题直接影响用户体验,开发者生态能否接受这种“重交互”模式有待验证。第三,此类“标注即指令”的玩法可能催生更多基于 tldraw 或类似 Canvas 引擎的 Agent 工具,例如已经出现的 WorkBuddy 适配版。

来源:36氪 · 24小时热榜

celebrityanime
celebrityanime
文章: 10099

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注