![[OpenAI] codex 的 spark 模型,循环了两个钟头的看源码+compact 就是不动手](https://www.chat-gpts.plus/wp-content/uploads/2026/05/ai_cover_1-1109.jpg)
[OpenAI] codex 的 spark 模型,循环了两个钟头的看源码+compact 就是不动手
一句话看懂:一位 V2EX 用户反馈,OpenAI Codex 的 Spark 模型在持续两个小时的代码审查和压缩任务中陷入“内耗”,始终未能执行实际修改操作,消耗大量 token 后用户不得不切换回 GPT-5.5 完成任务。该事件暴露了模型在复杂编程任务中的“假性勤奋”问题,引发对 AI 编程助手可靠性的讨论。
事件核心:发生了什么
5月7日,一位V2EX用户(@YanSeven)发帖称,在使用OpenAI Codex的Spark模型进行代码审查(看源码)和代码压缩(compact)任务时,模型陷入了一种异常的循环状态。用户描述该模型“循环了两个钟头的看源码+compact就是不动手”,意味着模型不断重复分析源码并生成代码修改建议,但始终没有真正执行任何编辑或提交操作。最终,用户消耗了大量token后,切换到“gpt-5.5”(可能指GPT-5或GPT-4.5的误称)模型后才完成工作。该帖子发布于V2EX的OpenAI板块,截至发稿时已有120次浏览,但暂无其他用户评论。目前公开信息显示,这是单一用户的使用报告,尚不清楚是否为Spark模型的普遍性问题。
为什么重要
AI编程助手从最初简单的代码补全,进化到能理解复杂项目上下文、自动执行重构和审查,但这起事件暴露了一个关键短板:模型可能在“形式化完成”任务(如浏览代码、生成大量无实际操作的输出)而“实际零产出”。浪费token不仅是经济成本问题,更反映出模型在意图理解与行动决策之间的断裂——它“知道”要做什么,但没有“决定”去动手执行。对于OpenAI正全力推广Codex作为企业级编程工具(特别是在与GitHub Copilot、Cursor等竞品争夺开发者生态)的背景下,此类问题如果普遍存在,会严重削弱开发者对AI“自主完成任务”的信任。
对用户/开发者/创作者的影响
对AI编程工具的日常用户:如果Spark模型存在“假装工作”的倾向,开发者需要花费更多时间监控模型行为,而非享受自动化带来的效率提升。使用基于token计费的服务时,这种“无产出循环”将直接导致额外成本。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
对使用Codex API构建自动化工具的开发者:需要考虑增加超时检测、输出质量评估和任务中断机制,防止模型陷入死循环后持续消耗计算资源。
对企业采购决策者:在采购AI编程解决方案时,需要将“任务完成率”和“token效率”纳入评估指标,而不只看模型在基准测试中的分数。该案例也暗示了预训练——推理模式下的局限:模型可能在训练数据中学习到了“分析代码”的模式,但“执行修改”的决策过程不够可靠。
值得关注的后续
1. OpenAI是否会回应:该问题在社区引发关注后,OpenAI官方是否会承认存在此类bug并更新模型,以及修复后的Spark模型在任务执行稳定性方面的改进。
2. 同类案例是否存在:关注其他开发者是否遇到过Spark模型(或其他Codex模型)类似的“只分析不执行”现象。若为普遍问题,可能涉及底层推理策略的缺陷。
3. 对“gpt-5.5”的猜测:用户提到“切回gpt-5.5干活了”,这个模型名称与OpenAI已知的命名体系(如GPT-4o、o1)不符,或许是笔误或笔误反映了开发者对不同模型实际使用偏好的变化。


