Show HN: GEDD – 发现您的 AI 代理的错误（在用户发现之前）

一句话看懂：亚马逊云科技（AWS）开源了一个名为 GEDD 的 AI 代理评估工具，核心思路是让业务领域专家先于工程师介入测试过程，用 90 分钟即可从零搭建出生产级别的错误检测管道，旨在解决当前 AI 代理评估中“不知道测什么”的常见困境。

事件核心：发生了什么

AWS 在 GitHub 上发布了 GEDD 示例项目（sample-GEDD），这是一套面向 AI 代理的评估工具链。GEDD 的独特之处在于其工作流程分两阶段：首先由领域专家（如药剂师、税务顾问等）在 Claude Code 环境下通过六个步骤定义代理行为、部署到 Bedrock AgentCore、生成并标注 20 个“黄金问题”，专家用“✓/⚠/✗”加上自定义错误代码（如 dosage_unit_confusion——剂量单位混淆）完成标注；然后将这些标注结果传给机器学习工程师，工程师利用 SageMaker MLflow 构建自动化裁判模型，并校准人机评分一致性（要求 Cohen’s Kappa ≥ 0.80），最终形成 CI/CD 门禁（要求任务成功率 TSR ≥ 95%）。项目预装了 17 个领域演示场景，涵盖航班预订、临床分诊、法律咨询等。

为什么重要

当前 AI 代理评估普遍存在一个方法论短板：工程团队习惯于事先制定评分标准，但很多失败模式只有具备领域知识的专业人员才能识别。GEDD 提出的“先部署再测试”策略——在第三步就部署代理到真实端点以纳入延迟、IAM 权限、冷启动等生产条件——以及“评估管道本身就是产品”的理念，前者属于对传统评估流程的逆操作，后者则暗示代理本身只是评估管道的产出物，把工作重点从“让代理更好”转向“让评估更可靠”。这种思路有助于在合规审查、业务交接等场景中提供可量化的可信度证明，对依赖 AI 代理的企业级部署具有直接参考价值。

对用户/开发者/创作者的影响

产品经理与领域专家：GEDD 降低了从“感觉代理有问题”到“能精确描述问题”的门槛，无需编写代码即可生成包含具体错误代码的评估数据集。ML 工程师：获得了从专家标注到自动化裁判的完整参考实现，特别是人机一致性校准环节（Cohen’s Kappa）和 MLflow 实验跟踪可以直接复用。企业决策者：拥有了一种可审计、可追溯的代理质量证明方法，对面向 CEO 汇报和合规审计场景尤其有价值。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

首先，GEDD 目前属于 AWS 示例项目而非官方托管服务，其维护节奏和社区贡献活跃度尚待观察。其次，项目强依赖 Claude Code（Claude Haiku 4.5 用于生成测试响应）和 Bedrock AgentCore，对于使用其他模型或推理平台的团队可能需额外适配工作。最后，GEDD 提出的方法论是否会被其他厂商（如 Azure AI、Vertex AI）采纳或出现竞品方案，将影响该评估思路在行业内的普及速度。

来源：github.com

Show HN: GEDD – 发现您的 AI 代理的错误（在用户发现之前）