往 Codex 里塞块无限画布，AI 改图终于能指哪打哪了

一句话看懂：开发者基于 tldraw 创建一个名为 Cowart 的本地无限画布插件，让 OpenAI 的 Codex 不仅能读文字提示，还能识别用户在图片上的箭头、批注和位置标记，实现“指哪打哪”的图像修改，而非传统的一长串文字描述。

事件核心：发生了什么

网友 @zhongerxin 基于开源白板工具 tldraw 改造了一个名为 Cowart 的本地插件，将其接入 OpenAI 的 Codex 代码 Agent。用户在 Cowart 画布上生成图片后，可以直接在图上画箭头、写批注，例如在人物眼睛位置画箭头并注明“给眼睛戴上墨镜”，在杯身位置标注“加上柴犬logo”。Codex 读取这份标注截图后，能根据空间位置和文字描述生成一张修订版图片，并放置在原图旁边。该插件通过 Codex 的 MCP（Model Context Protocol）工具和本地服务实现画布与 Agent 的联动，安装过程由 Codex 按照指定仓库地址自动执行。

为什么重要

这一交互方式解决了大模型在图像生成和修改中长期存在的“空间理解”痛点。传统方式要求用户将画面想象翻译成精确的文字提示词，而 Cowart 将空间信息转化为可视化的箭头、圈选和位置标注，大幅降低了位置描述的歧义和反复沟通成本。这种“画布+标注+生成”的交互逻辑，本质上是把 AI 从纯粹的文本对话窗口拉向一个空间化的操作界面。它验证了一个方向：只要 Agent 客户端能调用本地 MCP 工具、访问本地画布服务和图像生成能力，类似玩法就能移植到其他 AI 工具上，而不仅限于 Codex。

对用户/开发者/创作者的影响

对普通用户：降低了图像生成和精确修改的门槛。用户不需要再绞尽脑汁拼写“把左上角的红色杯子往右移动三厘米并换成蓝色”，直接在图上指出来即可。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对开发者和创作者：提供了 Agent 间协作的新范式——对话是线性的，创造是空间性的。开发者可以基于 tldraw 扩展自定义形状、工具和 UI 组件，把画布变成 Agent 的“视觉输入接口”。不过目前 Cowart 体验仍较粗糙：响应慢、额度消耗高、画布服务与 MCP 工具间偶发断联问题，需要重开画布或重启对话恢复。

对企业级应用：OpenAI 发布的内部白皮书显示，Codex 已在安全、产品工程、API 和基础设施等团队中日常使用，最佳实践包括先用 Ask Mode 规划再执行、借助 AGENTS.md 提供长期上下文。Cowart 这类插件正是这一理念的延伸——将画布、表格、网页等桌面环境变成 Agent 可调用的本地能力，推动 Codex 从代码助手演变成“工作台”。

值得关注的后续

第一，Cowart 目前是本地插件，如果 OpenAI 官方将类似交互能力直接集成到 Codex 或未来产品中，会极大影响竞品布局。第二，MCP 工具与画布服务的稳定性问题直接影响用户体验，开发者生态能否接受这种“重交互”模式有待验证。第三，此类“标注即指令”的玩法可能催生更多基于 tldraw 或类似 Canvas 引擎的 Agent 工具，例如已经出现的 WorkBuddy 适配版。

来源：36氪 · 24小时热榜

往 Codex 里塞块无限画布，AI 改图终于能指哪打哪了

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

融资 5000 万美元！Patronus AI 打造“数字孪生世界”为 AI 智能体做压力测试

Adobe宣布收购视频与图像AI模型开发商Topaz Labs，深化Firefly生态布局

不给数据就割肉？谷歌强推AI训练新规

发表回复取消回复