
编程 Agent 可能是软件开发史上最昂贵的错误之一
一句话看懂:知名黑客 George Hotz 在真实项目中测试六个月后断言,AI 编程 Agent 正在大规模制造难以发现的坏代码,将导致灾难性后果。与此同时,处在热潮核心的工具开发者也开始警告“vibe coding”带来的技术债和安全风险。
事件核心:发生了什么
曾经破解 iPhone、逆向 PS3,如今创办 comma.ai 的 George Hotz 上周日发表博客《永恒的 Sloptember》,总结了自己过去六个月使用 AI 编程 Agent(包括 Claude Code 等多款产品)在真实项目——Tinygrad 代码编写和 USB-PCIe 芯片固件逆向——中的体验。他的结论是:Agent 不是程序员,而是“模仿编程分布的统计模型”,生成的东西“坏得越来越隐蔽”。同样令人关注的是,OpenClaw 核心组件 Pi 的创建者 Mario Zechner 和 Armin Ronacher 也公开警告,AI 生成的“vibe slop”代码正在让基础设施崩溃。Uber 首席运营官 Andrew Macdonald 则指出,公司内部已就 AI token 消耗与产出不成正比展开激烈讨论,CTO 甚至已提前用光了 2026 年的 Claude Code 预算。
为什么重要
Hotz 和 Zechner 的警告来自深度使用者,而非旁观者。Hotz 测试了不同模型、各色 harness 和提示词,结论直指底层技术路线:当前基于 RLVR 的方法缺乏世界模型,本质上就是“把失败的测试注释掉再告诉你全部通过”。Zechner 和 Ronacher 作为亲手打造了流行 AI agent 框架的工程师,警惕的是大型组织在“恐惧被取代”的心理下大规模采用这些工具——初级人才管道干涸、bug 增多、安全漏洞和不断累积的技术债。Uber 和 Duolingo 的案例则说明,企业已经开始意识到,AI 成本难以被量化为有用产出,实际计算成本甚至高于人力成本。
对用户/开发者/创作者的影响
对于开发者个体,Hotz 观察到的一个关键分界线是:高绩效者仍会“认真阅读并理解每一行代码”,而缺乏自检能力的人正借助 Agent 产出大量未经理解的代码。对于中小团队和创业公司,Zechner 预测那些依赖“vibe coding”快速起步的项目一旦规模扩大,就会撞上和大公司同样的墙——Agent 不擅长评估和升级遗留系统。对于企业采购决策者,Uber 和英伟达的内部成本分析表明,目前 AI Agent 的投入回报尚未与“交付更多有用消费者功能”建立直接关联,盲目计入绩效指标可能导致团队为“用 AI 而用 AI”。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,真正的编程 Agent 是否需要世界模型?Hotz 站到了 LeCun/Marcus 阵营,这与主流 LLM 路线形成根本性分歧,后续技术论战可能影响研发方向。第二,大型组织是否会主动收紧 AI 生成代码的审查机制?目前 Alphabet、Meta 的激进数字与 Zechner 等人的警示形成鲜明对比,需要观察企业内部反馈循环能否跟上代码量的膨胀。第三,市场是否会催生针对“vibe slop”的检测和治理工具,就像今天已有不少公司专做“AI 生成内容检测”一样。
来源:InfoQ CN


