微软发布 ASSERT 开源框架：让开发者更高效地评测 AI 智能体和应用行为

一句话看懂：2026年6月3日，微软发布 ASSERT 开源框架，将自然语言书写的 AI 行为规范直接转换为可执行的评估流程，覆盖测试生成、运行与评分，旨在系统性提升 AI 智能体和应用的评测效率与可靠性。

事件核心：发生了什么

微软今日正式推出 ASSERT（自适应规范驱动评分）开源框架，定位为将行为规范从“背景参考”升级为“评估核心输入”的工具。该框架基于产品需求、政策文件或系统提示等文本，自动经历四个阶段：将行为描述转化为可编辑的许可与不许可分类体系；按任务类型、角色等维度生成分层测试用例（含单轮、多轮、善意与对抗性场景）；运行测试并记录完整轨迹（含工具调用、中间决策）；最后对照分类输出通过/失败标签、理由及策略引用。

为验证效果，微软团队进行了两项研究。第一项覆盖率研究显示，ASSERT 在多项行为（如社会评分、拍马屁、任务遵循、工具使用规范、不安全健康建议）上生成的测试集比传统方法覆盖更广，暴露出更多失败模式且区分强弱系统能力更强。第二项人工评审对比发现，LLM 判定器与人工审核一致率达80%–90%，接近人工标注者间约90%的一致性。但微软也强调，LLM 判定器在策略细微差别或高度专业领域仍需谨慎，ASSERT 不能替代人工判断或领域专家评审。该项目已在 GitHub 开源，并提供 travel-planning agent 实例。

为什么重要

此前 AI 智能体和应用的评估高度依赖人工编写测试用例或对结果做“模糊判断”，这导致了评估成本高、可重复性差、覆盖不全面等问题。ASSERT 试图将评估流程从“手工作坊”推向“半自动产线”：它允许开发者用自然语言直接描述预期行为（如“不要在健康建议中给出不安全推荐”），框架再把这些描述转化为可量化的测试和评分。这种“规范即评估”的思路，有望使 AI 系统的质量保障更加系统化、可迭代，尤其对于遵循复杂政策或合规要求的企业级应用，意义更为直接。同时，开源发布也意味着微软希望通过社区协作加速该方向的标准化进程，并可能巩固其在 AI 安全评测领域的生态影响力。

对用户/开发者/创作者的影响

对于开发 AI 智能体的团队：ASSERT 提供了一条低成本、可复用的评测参考路径，尤其适用于行为定义明确的场景（如客服机器人的工具使用规范）。开发者不需要从零编写大量测试，只需写出行为规范的“大白话”即可启动评估。但需注意的是，微软明确提醒不应将汇总评分视为最终结论，更多价值在于收集失败案例和操作轨迹以改进系统。对于企业采购方：这一框架可作为评估供应商 AI 行为一致性的辅助工具；不过其有效性高度依赖行为规范的精确程度，以及输出是否经过了领域专家的补充审查。对于普通用户，短期影响有限，但随着相关工具普及，AI 应用产生危险或不恰当行为的概率有望被持续压低。

值得关注的后续

第一，生态落地速度：当前 ASSERT 尚处于框架公布阶段，能否被主流 AI 智能体平台（如微软自身的 Copilot 生态或第三方工具链）广泛采用，是检验其实际价值的关键。第二，竞品反应：Google、Anthropic、OpenAI 等已有各自的评测方法论，ASSERT 可能引发新一轮“评估标准化”竞争，尤其在合规测评工具方面。第三，社区贡献质量：ASSERT 作为开源项目，其社区能否帮助完善对高度专业领域或模糊策略的处理（目前人工审核仍不可或缺），将直接影响其从“亮点尝试”升级为“行业标配”的可能性。

来源：Readhub · AI

微软发布 ASSERT 开源框架：让开发者更高效地评测 AI 智能体和应用行为