Sarang Kulkarni 谈在生产环境中构建深度研究智能体的经验教训

一句话看懂：Thoughtworks 的 Sarang Kulkarni 在 2026 年 Arc of AI 大会上分享了一个将简单 RAG 系统升级为多智能体深度研究系统的实践经验，并指出了 Token 成本、延迟和治理框架等关键工程挑战。这些经验直接关系到想要在企业级场景落地 AI 智能体（Agent）的团队。

事件核心：发生了什么

在 2026 年 Arc of AI 大会上，来自 Thoughtworks 的 Sarang Kulkarni 介绍了团队在医疗保健和制药研发项目中构建深度研究智能体的历程。两年前，他们的团队最初仅基于 RAG（检索增强生成）技术构建了聊天机器人，用于检索非结构化数据。面对复杂的研究任务，该团队将其升级为“智能体 RAG”应用，并最终开发了一个名为 Agentic RAG++ 的解决方案，以支持深度推理与多步骤信息合成。Kulkarni 详细拆解了这个深度研究系统的架构：它包含“澄清循环”、“研究循环”（思考-规划-执行-反思-调整）以及“写作循环”（写作+反思）。研究中使用的初始工具是两个：一个采用加权混合搜索、20 个上下文块、重排序器和 7 个精炼上下文块的 RAG 工具，以及一个 text2sql 工具（用于将 SQL 错误反馈给大模型以提升准确性）。他强调，Token 成本过高、性能低下和延迟过长都可能导致智能体检索效果变差，而“上下文焦虑”与数据不完整也会导致自我评估失准。

为什么重要

这一分享的价值在于提供了从“简单 RAG”到“多智能体深度研究系统”的演进路线图，而非空洞的理论。在药物发现等高风险行业，一次正确的研究可能节省数亿美元（Kulkarni 引用了“将一款新药推向市场需花费 26 亿美元”的数据）。演讲中，“治理框架工程”被提出作为继“提示工程”后的下一个工程阶段——即通过工具设计、记忆系统、验证检查和反馈循环来确保自主 AI 智能体的可靠与可追溯。这不是一个纯学术概念，而是解决“决策断层”（长期任务步骤间决策不连贯）等实际工程问题的方法。对于行业竞争格局而言，这意味着深度研究智能体不再只是 OpenAI 和 Gemini 实验室的演示产品，已经开始进入需要合规性、可解释性的企业生产环境。

对用户/开发者/创作者的影响

对开发者和 AI 工程师：Kulkarni 点明了多个生产级智能体必须处理的“坑”：长期任务需要显式的“思考-行动”循环（即思考、计划、检查、更新），可以使用 Anthropic 的“think”工具来规范化推理暂停。反思不仅是反思数据，还要反思流程（评估流程是否完成）以及补漏（“草稿撰写循环”弥补写作中的合成断层）。
对企业采购者与架构师：在选择技术方案时，评估一个多智能体系统是否具备治理框架（如 SQL 查询错误自动反馈、上下文焦虑检测机制）比单纯看模型推理能力更重要——Kulkarni 指出“模型质量越高，所需的治理框架越精简”，但框架不可少。
对普通用户：目前这些技术主要面向专业级深度研究场景（如医疗、制药），短期内不会直接出现在消费级工具中，但它预示着 AI 回答“复杂且需要证据链”的问题时将更加可靠。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 治理框架的标准化：目前治理框架工程还处于案例驱动阶段，是否会有类似 LangChain 或 LlamaIndex 的开源库来封装“反思循环”和“决策断层检测”？
2. 成本与速度的平衡：演讲中反复提及 Token 成本和延迟问题，后续 Agentic RAG++ 是否会开源其“加权混合搜索”和自动容错的 text2sql 方案，将是开发者社区关注的焦点。
3. 行业落地节奏：在医疗和临床实验场景中，此类深度研究智能体是否能在严格的监管要求下（如数据合规、推理可追溯）通过实际审计，将决定其能否从试点走向规模部署。

来源：InfoQ CN

Sarang Kulkarni 谈在生产环境中构建深度研究智能体的经验教训