Coding Agent 技术全景图:Context Engineering、Subagents 与 Harness,一年范式转移全解析

Thoughtworks 全球 AI 软件交付负责人 Birgitta Böckeler 在 QCon 纽约站演讲指出,过去一年 Coding Agent 领域已从“自动补全”进化到“Agent 自主开发”,核心不再只是 Prompt 调优,而是通过 Context Engineering 和 Subagen…

Coding Agent 技术全景图:Context Engineering、Subagents 与 Harness,一年范式转移全解析

一句话看懂:Thoughtworks 全球 AI 软件交付负责人 Birgitta Böckeler 在 QCon 纽约站演讲指出,过去一年 Coding Agent 领域已从“自动补全”进化到“Agent 自主开发”,核心不再只是 Prompt 调优,而是通过 Context Engineering 和 Subagents 构建可工程化的上下文管理系统,并通过统一的 Harness 来约束模型的不确定性。这标志着企业级 AI 开发正从实验性“Vibe Coding”向结构化工程交付转型。

事件核心:发生了什么

在 QCon 纽约站演讲中,Böckeler 系统梳理了 Coding Agent 领域过去一年发生的三项结构性变化:

第一,Context Engineering 的正式确立。这个概念自 2024 年 6 月才开始流传,核心是让 Agent 只看到经过筛选的上下文信息,而非一次性塞满整个 context window。Anthropic 推出了 Skills,将规则拆分成模块化文件夹(如 React 组件写法、AWS 日志拉取),并按需由 LLM 即时加载,而非每次启动会话时全量发送。现在 Claude Code 和 GitHub Copilot 都已提供 context monitoring 功能,显示实际占用空间——例如一个新 session 刚启动时,系统 prompt 和 skills 可能已消耗 15% 的上下文预算。

第二,Subagents 的普及。主 Agent 可派生子 Agent 完成独立任务,典型场景是“探索代码库结构”或“代码审查”。子 Agent 使用独立 context window,只将结论汇报回主 session,避免中间噪音污染主上下文。部分实践已支持子 Agent 使用不同模型。

第三,从监督式到无监督式开发的迁移。OpenAI Codex 2024 年中发布的 cloud agents 模式(任务发到云端自运行 20 分钟后返回结果)已成为主流。Cursor CLI、Copilot CLI、Claude Code 的命令行版本均支持 headless 运行,可直接接入 GitHub Actions 等 CI/CD 流水线,实现低监督甚至无监督的自主开发。

为什么重要

这组变化改变了 AI 辅助编程的工程基础。过去一年的教训是:单纯靠“Vibe Coding”和 Prompt 调优无法支撑企业级软件开发,尤其非确定性模型会带来风险和成本失控。Context Engineering 从“锦上添花的提示词”变成了项目级别的“放大器杠杆”——它会放大好的工程实践,但同样会放大坏的代码结构。

Böckeler 特别指出,未来团队可能不再以“React 还是 Vue”作为技术栈决策核心,而是会问“有没有现成的 Harness 模版可以用”。这种 Harness 本质上是为人类设计的工程约束系统(如测试、代码审查、架构决策记录)的 AI 可学习、可反馈、可优化版本。一旦 Harness 成熟,它将成为新的“脚手架”,承载自动化迁移、威胁建模、质量门禁等全生命周期任务。

在商业化层面,Claude Code 团队目前仍是行业领跑者,其他产品多在其后跟进。Skills 的版本管理和分发、插件的效果评估(evals)仍处于早期阶段,Tessl 和 Anthropic 刚推出相关工具,但尚未规模化。

对用户/开发者/创作者的影响

对于开发者,最直接的变化是工作角色正在从“编写代码”转向“管理上下文”。你需要关注:上下文预算(一个 session 里 skills 和 tools 实际占用了多少 token);技能模块的粒度(一个 skill 应该专精于 React 或日志排查,而非大而全);以及子 Agent 的应用场景(如让独立 context 的 Code Review Agent 使用不同模型进行事后审查)。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对于企业团队,若计划使用无监督模式(cloud agents 或 headless CLI),必须建立三方面的风险评估——出错的概率、出错的后果、以及能否检测出错。Böckeler 引用经典风险分析框架,强调目前许多团队在“检测性”上最薄弱,而 Harness 的设计目标就是弥补这一点。

对于技术负责人,现在应开始考虑:你希望 AI 放大哪些工程实践?架构决策记录、威胁建模、测试策略等原本依赖人工纪律的工作,现在可通过 Skills 标准化和自动化。但同时要警惕,如果当前代码库结构混乱、文档缺失,Agent 会更快将其放大为更难维护的系统。

值得关注的后续

第一,Skills 的版本管理与分发生态是否成型。Anthropic 的插件市场和 Tessl 的平台目前都不成熟,第三方能否形成类似 npm 的“Skill 包管理”将成为助推行业从“单人实验”到“团队工程化”的关键节点。第二,Harness 的抽象与跨平台能力。Böckeler 设想的“Harness 模版”能否真正让团队无视 React 或 Vue 的选择,拥有统一的开发安全网,需观察各主流 IDE 和云端 Agent 平台是否提供标准化 Harness 接口。第三,无监督开发在真实企业场景中的事故率。目前 cloud agents 在演示中表现惊艳,但一旦接入敏感生产环境,模型的失误如何被自动检测并回滚,尚无公开的成熟案例。如果未来半年内出现不可逆的生产故障,可能让行业回归对人工监督的重视。

来源:InfoQ CN

celebrityanime
celebrityanime
文章: 7780

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注