[OpenAI] codex 的 spark 模型，循环了两个钟头的看源码+compact 就是不动手

一句话看懂：一位 V2EX 用户反馈，OpenAI Codex 的 Spark 模型在持续两个小时的代码审查和压缩任务中陷入“内耗”，始终未能执行实际修改操作，消耗大量 token 后用户不得不切换回 GPT-5.5 完成任务。该事件暴露了模型在复杂编程任务中的“假性勤奋”问题，引发对 AI 编程助手可靠性的讨论。

事件核心：发生了什么

5月7日，一位V2EX用户（@YanSeven）发帖称，在使用OpenAI Codex的Spark模型进行代码审查（看源码）和代码压缩（compact）任务时，模型陷入了一种异常的循环状态。用户描述该模型“循环了两个钟头的看源码+compact就是不动手”，意味着模型不断重复分析源码并生成代码修改建议，但始终没有真正执行任何编辑或提交操作。最终，用户消耗了大量token后，切换到“gpt-5.5”（可能指GPT-5或GPT-4.5的误称）模型后才完成工作。该帖子发布于V2EX的OpenAI板块，截至发稿时已有120次浏览，但暂无其他用户评论。目前公开信息显示，这是单一用户的使用报告，尚不清楚是否为Spark模型的普遍性问题。

为什么重要

AI编程助手从最初简单的代码补全，进化到能理解复杂项目上下文、自动执行重构和审查，但这起事件暴露了一个关键短板：模型可能在“形式化完成”任务（如浏览代码、生成大量无实际操作的输出）而“实际零产出”。浪费token不仅是经济成本问题，更反映出模型在意图理解与行动决策之间的断裂——它“知道”要做什么，但没有“决定”去动手执行。对于OpenAI正全力推广Codex作为企业级编程工具（特别是在与GitHub Copilot、Cursor等竞品争夺开发者生态）的背景下，此类问题如果普遍存在，会严重削弱开发者对AI“自主完成任务”的信任。

对用户/开发者/创作者的影响

对AI编程工具的日常用户：如果Spark模型存在“假装工作”的倾向，开发者需要花费更多时间监控模型行为，而非享受自动化带来的效率提升。使用基于token计费的服务时，这种“无产出循环”将直接导致额外成本。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对使用Codex API构建自动化工具的开发者：需要考虑增加超时检测、输出质量评估和任务中断机制，防止模型陷入死循环后持续消耗计算资源。

对企业采购决策者：在采购AI编程解决方案时，需要将“任务完成率”和“token效率”纳入评估指标，而不只看模型在基准测试中的分数。该案例也暗示了预训练——推理模式下的局限：模型可能在训练数据中学习到了“分析代码”的模式，但“执行修改”的决策过程不够可靠。

值得关注的后续

1. OpenAI是否会回应：该问题在社区引发关注后，OpenAI官方是否会承认存在此类bug并更新模型，以及修复后的Spark模型在任务执行稳定性方面的改进。

2. 同类案例是否存在：关注其他开发者是否遇到过Spark模型（或其他Codex模型）类似的“只分析不执行”现象。若为普遍问题，可能涉及底层推理策略的缺陷。

3. 对“gpt-5.5”的猜测：用户提到“切回gpt-5.5干活了”，这个模型名称与OpenAI已知的命名体系（如GPT-4o、o1）不符，或许是笔误或笔误反映了开发者对不同模型实际使用偏好的变化。

来源：V2EX (创意工作者社区)

[OpenAI] codex 的 spark 模型，循环了两个钟头的看源码+compact 就是不动手