Anthropic工程师Margot Van Laar：提示词工程实战–调试生产提示词为主，评估是唯一严谨方式

一句话看懂：Anthropic应用AI团队的工程师Margot Van Laar在Code with Claude大会上用两个真实案例揭示了一个事实：真正的提示词工程不在“从零写”，而在“调试和维护已有的生产提示词”，并强调评估（Eval）是唯一能验证改动的严谨方式。

事件核心：发生了什么

在Anthropic举办的Code with Claude技术分享中，工程师Margot Van Laar以“提示词工程实战”为题，系统阐述了团队在实际工作中处理生产级提示词的方法。她指出，团队几乎从不从零编写提示词，多数时间都在处理已有系统中的提示词问题。通过两个真实案例——客服机器人的维护和零售排班Agent的构建——她展示了核心方法论：结构化清理、拆解复杂逻辑、避免历史指令残留，以及用评估替代“凭感觉”修改。例如，在客服场景中，团队发现旧模型留下的“禁止列表”指令在新模型中导致过度拟合，模型开始隐瞒本可提供的信息；而在排班Agent案例中，将一个复杂提示词拆分为生成、评估、修复三个简单提示词的循环，稳定性显著提升。她还建议优先选择更强的推理模型（如Opus）加自适应思考，而非用复杂提示词搭配弱模型。

为什么重要

这一分享直击当前AI应用开发中的实际痛点。许多开发者将提示词工程等同于“写出一段完美的初始指令”，但真正的问题常常出现在模型迭代后——旧指令在新模型下产生副作用，或者复杂的单一提示词容易失败。Van Laar提出的“调试优先”视角和“拆分为简单循环”的策略，为生产级AI应用的维护提供了可操作的方法论。她反复强调的“评估是唯一严谨方式”，也戳中了行业中靠直觉改提示词的普遍误区。这不仅是技术技巧的总结，更提示开发者：随着模型能力快速提升，提示词策略需要从“指令工程”转向“系统工程设计”，而可量化的评估基准是这一转变的基础。

对用户/开发者/创作者的影响

对开发者而言，最直接的影响是工作流的改变：接手任何生产提示词时，第一步应建立评估基线（Eval），然后才进行结构性清理，而不是直接编辑内容。Van Laar的案例也提供了具体避坑指南：避免保留旧模型的补丁指令；对精确计算场景，应让模型调用外部工具而非靠提示词提示；在转人工等决策中，需向模型同时说明成本和收益，而非简单给予规则。对使用Claude或其他大模型的创作者和产品经理，这意味着交付物质量提升的关键可能不在于“写得更好”，而在于“测得更准”。此外，模型选择建议（优先更强模型而非复杂提示词）也提醒企业：在推理成本可控的场景，用更聪明的模型反而是最省事的方案。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. Anthropic是否会围绕这一方法论推出官方工具或最佳实践文档，帮助开发者建立评估流程。2. 其他大模型提供商（如OpenAI、Google）是否会在其开发者社区跟进类似的生产提示词调试指南，这将决定行业标准是否趋同。3. 随着Claude系列模型能力持续提升，旧有提示词补丁导致的“历史债务”问题将愈发普遍，如何自动检测并清理这些债务，可能成为下一个技术热点。

来源：X：Berry Xia (@berryxia)

Anthropic工程师Margot Van Laar：提示词工程实战–调试生产提示词为主，评估是唯一严谨方式

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

温布尔登添加了用于现场比赛报道的 IBM AI 工具

HP 通过 OpenAI Frontier 加速企业工作流程

Cursor 现在有一个移动应用程序，可以随时随地指导您的编码代理

发表回复取消回复