我们的副总裁说AI会自我测试。我举手发言。结果被调职了。第三天就花了280万美元。我早就准备好了截图。

一句话看懂：一家公司的副总裁强制推行AI全程生成代码并声称“AI会自我测试”，一位资深工程师因质疑被调职后，发现AI写的代码在生产环境中留下了47个TODO、8个测试失败，并导致一笔280万美元的折扣计算错误。这起事件以第一人称叙述在dev.to上公开，引发开发者社区对AI代码可靠性和管理盲区的广泛讨论。

事件核心：发生了什么

新上任的工程副总裁Marcus在全体会议上宣布，公司全面转向AI代码生成，宣称“手工编写代码的时代结束”，并引用“AI写代码比人类快400%”的基准测试。当一位有7年经验的工程师举手询问代码审查和测试环节时，Marcus以“AI测试自己”回应，并嘲讽其数据量不如AI模型Orion-7。第二天，该工程师被调职至Legacy Systems团队，失去写权限，Copilot许可证被取消。但他利用只读访问权限克隆了新建系统的代码库，发现：使用pytest运行测试，15个通过、8个失败；代码中残留47个TODO；订单API的discount_detail字段返回null，而文档要求必须为对象——这导致了系统无法正确计算折扣，实际造成一笔价值280万美元的订单出现折扣金额错误。

为什么重要

这起事件不只是个人遭遇，而是当前企业大规模采用AI编程时典型问题的缩影。它暴露了三个关键风险：第一，管理层对AI生成代码的“零缺陷”宣传往往缺乏实证，基准测试中的速度和实际生产环境中的正确性是两个维度；第二，“AI自我测试”的承诺在现实中难以兑现，未被识别到的测试失败和遗留TODO直接进入生产；第三，当质疑者被系统性地边缘化时，组织失去了自我纠正的能力。此案例在dev.to社区中被广泛分享，说明类似现象在行业内并非个例，而是管理模式与技术信任度失衡的普遍警示。

对用户/开发者/创作者的影响

对于开发者个体，此案例提示应当坚守代码审查和测试的基本工程原则，即使工具从键盘转为AI提示，核心的质量控制流程不能省略。对于技术决策者，强制推行AI代码生成而不保留人工验证环节，将导致“速度掩盖缺陷”的恶性循环。对于使用该企业服务的普通用户，折扣计算错误直接意味着多付或少付钱，而系统无法自动检测此类业务逻辑错误。整体而言，AI编程工具在企业落地时，需要平衡效率与可靠性，不宜将“AI自动验证”当作无需投入QA资源的口号。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

目前公开信息显示，该事件中的工程师已完成截图和数据取证，但Marcus和公司方面尚未公开回应。值得关注的是：第一，该公司是否会因这笔280万美元的折扣错误而调整AI代码策略；第二，类似“AI自我测试”的管理承诺在其它公司中是否已被记录到实际事故；第三，dev.to上这类第一人称叙述是否会被更多企业纳入AI采用的内部风险评估案例。此外，Orion-7作为文中提到的模型名称，其实际能力和在编码场景下的局限性值得进一步追踪。

来源：dev.to

我们的副总裁说AI会自我测试。我举手发言。结果被调职了。第三天就花了280万美元。我早就准备好了截图。