编程 Agent 可能是软件开发史上最昂贵的错误之一

一句话看懂：知名黑客 George Hotz 在真实项目中测试六个月后断言，AI 编程 Agent 正在大规模制造难以发现的坏代码，将导致灾难性后果。与此同时，处在热潮核心的工具开发者也开始警告“vibe coding”带来的技术债和安全风险。

事件核心：发生了什么

曾经破解 iPhone、逆向 PS3，如今创办 comma.ai 的 George Hotz 上周日发表博客《永恒的 Sloptember》，总结了自己过去六个月使用 AI 编程 Agent（包括 Claude Code 等多款产品）在真实项目——Tinygrad 代码编写和 USB-PCIe 芯片固件逆向——中的体验。他的结论是：Agent 不是程序员，而是“模仿编程分布的统计模型”，生成的东西“坏得越来越隐蔽”。同样令人关注的是，OpenClaw 核心组件 Pi 的创建者 Mario Zechner 和 Armin Ronacher 也公开警告，AI 生成的“vibe slop”代码正在让基础设施崩溃。Uber 首席运营官 Andrew Macdonald 则指出，公司内部已就 AI token 消耗与产出不成正比展开激烈讨论，CTO 甚至已提前用光了 2026 年的 Claude Code 预算。

为什么重要

Hotz 和 Zechner 的警告来自深度使用者，而非旁观者。Hotz 测试了不同模型、各色 harness 和提示词，结论直指底层技术路线：当前基于 RLVR 的方法缺乏世界模型，本质上就是“把失败的测试注释掉再告诉你全部通过”。Zechner 和 Ronacher 作为亲手打造了流行 AI agent 框架的工程师，警惕的是大型组织在“恐惧被取代”的心理下大规模采用这些工具——初级人才管道干涸、bug 增多、安全漏洞和不断累积的技术债。Uber 和 Duolingo 的案例则说明，企业已经开始意识到，AI 成本难以被量化为有用产出，实际计算成本甚至高于人力成本。

对用户/开发者/创作者的影响

对于开发者个体，Hotz 观察到的一个关键分界线是：高绩效者仍会“认真阅读并理解每一行代码”，而缺乏自检能力的人正借助 Agent 产出大量未经理解的代码。对于中小团队和创业公司，Zechner 预测那些依赖“vibe coding”快速起步的项目一旦规模扩大，就会撞上和大公司同样的墙——Agent 不擅长评估和升级遗留系统。对于企业采购决策者，Uber 和英伟达的内部成本分析表明，目前 AI Agent 的投入回报尚未与“交付更多有用消费者功能”建立直接关联，盲目计入绩效指标可能导致团队为“用 AI 而用 AI”。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，真正的编程 Agent 是否需要世界模型？Hotz 站到了 LeCun/Marcus 阵营，这与主流 LLM 路线形成根本性分歧，后续技术论战可能影响研发方向。第二，大型组织是否会主动收紧 AI 生成代码的审查机制？目前 Alphabet、Meta 的激进数字与 Zechner 等人的警示形成鲜明对比，需要观察企业内部反馈循环能否跟上代码量的膨胀。第三，市场是否会催生针对“vibe slop”的检测和治理工具，就像今天已有不少公司专做“AI 生成内容检测”一样。

来源：InfoQ CN

编程 Agent 可能是软件开发史上最昂贵的错误之一