Show HN: GEDD – 发现您的 AI 代理的错误(在用户发现之前)

Show HN: GEDD – 发现您的 AI 代理的错误(在用户发现之前)

Show HN: GEDD – 发现您的 AI 代理的错误(在用户发现之前)

一句话看懂:亚马逊云科技(AWS)开源了一个名为 GEDD 的 AI 代理评估工具,核心思路是让业务领域专家先于工程师介入测试过程,用 90 分钟即可从零搭建出生产级别的错误检测管道,旨在解决当前 AI 代理评估中“不知道测什么”的常见困境。

事件核心:发生了什么

AWS 在 GitHub 上发布了 GEDD 示例项目(sample-GEDD),这是一套面向 AI 代理的评估工具链。GEDD 的独特之处在于其工作流程分两阶段:首先由领域专家(如药剂师、税务顾问等)在 Claude Code 环境下通过六个步骤定义代理行为、部署到 Bedrock AgentCore、生成并标注 20 个“黄金问题”,专家用“✓/⚠/✗”加上自定义错误代码(如 dosage_unit_confusion——剂量单位混淆)完成标注;然后将这些标注结果传给机器学习工程师,工程师利用 SageMaker MLflow 构建自动化裁判模型,并校准人机评分一致性(要求 Cohen’s Kappa ≥ 0.80),最终形成 CI/CD 门禁(要求任务成功率 TSR ≥ 95%)。项目预装了 17 个领域演示场景,涵盖航班预订、临床分诊、法律咨询等。

为什么重要

当前 AI 代理评估普遍存在一个方法论短板:工程团队习惯于事先制定评分标准,但很多失败模式只有具备领域知识的专业人员才能识别。GEDD 提出的“先部署再测试”策略——在第三步就部署代理到真实端点以纳入延迟、IAM 权限、冷启动等生产条件——以及“评估管道本身就是产品”的理念,前者属于对传统评估流程的逆操作,后者则暗示代理本身只是评估管道的产出物,把工作重点从“让代理更好”转向“让评估更可靠”。这种思路有助于在合规审查、业务交接等场景中提供可量化的可信度证明,对依赖 AI 代理的企业级部署具有直接参考价值。

对用户/开发者/创作者的影响

产品经理与领域专家:GEDD 降低了从“感觉代理有问题”到“能精确描述问题”的门槛,无需编写代码即可生成包含具体错误代码的评估数据集。ML 工程师:获得了从专家标注到自动化裁判的完整参考实现,特别是人机一致性校准环节(Cohen’s Kappa)和 MLflow 实验跟踪可以直接复用。企业决策者:拥有了一种可审计、可追溯的代理质量证明方法,对面向 CEO 汇报和合规审计场景尤其有价值。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

首先,GEDD 目前属于 AWS 示例项目而非官方托管服务,其维护节奏和社区贡献活跃度尚待观察。其次,项目强依赖 Claude Code(Claude Haiku 4.5 用于生成测试响应)和 Bedrock AgentCore,对于使用其他模型或推理平台的团队可能需额外适配工作。最后,GEDD 提出的方法论是否会被其他厂商(如 Azure AI、Vertex AI)采纳或出现竞品方案,将影响该评估思路在行业内的普及速度。

来源:github.com

celebrityanime
celebrityanime
文章: 4982

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注