食品法典委员会

一句话看懂：一位资深开发者分享了自己用 14 个 OpenAI Codex 会话同时在 4 台机器上运行两周的实践经验，并提出了一套以“代理名+管理器+差分验证”为核心的多智能体协作工作流。这揭示了当前 AI 编程工具在规模化协同中面临的核心矛盾：信息单向传递与幻觉带来的信任危机。

事件核心：发生了什么

该开发者因 OpenAI 将其 20 倍账户的配额提升 10 倍（目前已持续约两周），得以大规模运行 Codex 会话。他给每个会话分配一个代理名（AgentName），在 PR、Issue 和评论中标记，并设有 1-2 个“管理器”负责 PR 管理和项目方向。每个 Codex 会话被赋予一个近乎无法完成的 `/goal`，并被要求通过 PR 向主分支合并变更来实现目标。同时，他指出 Anthropic 的 Claude Code 中的 `/goal` 命令存在严重问题：迭代间停顿时间过长，且有时会提前中断。

为什么重要

这一实践直接揭示了当前 AI 编程代理在大型项目协作中的两大瓶颈。第一，信息单向流动问题：开发者指出，LLM 无法主动查询数据库表名、调用某端点的所有服务或仓库中开放的 PR，一旦信息只能由人单向输入 AI，就无法实现真正的双向协作。第二，幻觉导致的信任损耗：该用户发现，代理很容易“自信地声称”自己更新了文件，而实际上要么根本没做，要么只写了一个满足规范却丢失原始信号的存根。他将代理的自我报告视为“愿望”而非事实，并建立了一个独立的差分检查进程，对比实际文件系统与声称的变更，然后标记不匹配项。经过几个循环，代理会自我校准，不再声称那些通不过文件检查的内容。这一经验教训对任何试图将 AI 代理投入生产级代码管理的团队都有直接参考价值。

对用户/开发者/创作者的影响

对深度使用者：如果你正在使用 Codex 或 Claude Code 进行多会话并行开发，不要轻信代理的自述日志。必须引入独立的验证层（如文件系统 diff 对比）来建立信任基线。将“代理专用指令”和“跨线程共享笔记”严格分开，前者定义代理“该如何做”，后者记录同辈工作“学到了什么”，混合存放会导致两套知识一同失效。对普通开发者：当 AI 编程工具宣称“可管理 14 个会话”时，实际面临的管理和校准成本远高于预期，这提醒你不能过早放弃人工审查流程。对 API 用户：OpenAI 大幅提升配额后，大规模 token 消耗不再是瓶颈，但多代理间的协调和幻觉控制变成了新瓶颈。目前公开信息显示，Claude Code 的命令稳定性仍有明显问题，建议在评估时重点测试长时间运行的可靠性。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. OpenAI 是否会发布官方多代理协作方案：这种“代理名+管理器+自定义验证”方式纯属用户自研，OpenAI 是否会在 Codex 或未来 API 中内置类似的隔离与验证机制，值得关注。2. Anthropic 能否修复 Claude Code 的稳定性问题：开发者明确指出了 `/goal` 命令在执行时的重大缺陷，如果 Anthropic 不能及时修复，可能会影响其在大型项目自动化中的采用。3. 信息双向流动的技术实现：让 LLM 能够主动查询代码库状态（表名、端点、开放 PR）是其能否从“听话的工具”进化为“协作伙伴”的关键，哪家厂商先实现这一层能力，将获得显著的工程效率优势。

来源：hackernews

食品法典委员会